論文の概要: How to Describe Images in a More Funny Way? Towards a Modular Approach
to Cross-Modal Sarcasm Generation
- arxiv url: http://arxiv.org/abs/2211.10992v1
- Date: Sun, 20 Nov 2022 14:38:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 17:43:08.710131
- Title: How to Describe Images in a More Funny Way? Towards a Modular Approach
to Cross-Modal Sarcasm Generation
- Title(参考訳): イメージをもっと面白い方法で表現する方法?
クロスモーダルサーカスム生成へのモジュール的アプローチに向けて
- Authors: Jie Ruan, Yue Wu, Xiaojun Wan, Yuesheng Zhu
- Abstract要約: 本稿では,CMSG(Cross-modal sarcasm Generation)の新たな問題,すなわち,与えられた画像に対してサーカシックな記述を生成することについて検討する。
CMSGは、異なるモード間の相関だけでなく、サルカズムの特性をモデルが満たさなければならないため、困難である。
クロスモデルサルカズム生成のための抽出・生成・生成に基づくモジュール法(EGRM)を提案する。
- 参考スコア(独自算出の注目度): 62.89586083449108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sarcasm generation has been investigated in previous studies by considering
it as a text-to-text generation problem, i.e., generating a sarcastic sentence
for an input sentence. In this paper, we study a new problem of cross-modal
sarcasm generation (CMSG), i.e., generating a sarcastic description for a given
image. CMSG is challenging as models need to satisfy the characteristics of
sarcasm, as well as the correlation between different modalities. In addition,
there should be some inconsistency between the two modalities, which requires
imagination. Moreover, high-quality training data is insufficient. To address
these problems, we take a step toward generating sarcastic descriptions from
images without paired training data and propose an
Extraction-Generation-Ranking based Modular method (EGRM) for cross-model
sarcasm generation. Specifically, EGRM first extracts diverse information from
an image at different levels and uses the obtained image tags, sentimental
descriptive caption, and commonsense-based consequence to generate candidate
sarcastic texts. Then, a comprehensive ranking algorithm, which considers
image-text relation, sarcasticness, and grammaticality, is proposed to select a
final text from the candidate texts. Human evaluation at five criteria on a
total of 1200 generated image-text pairs from eight systems and auxiliary
automatic evaluation show the superiority of our method.
- Abstract(参考訳): サルカズム生成は、テキストからテキストへの生成問題、すなわち入力文に対するサーカシックな文を生成することを考慮し、過去の研究で研究されてきた。
本稿では,CMSG(Cross-modal sarcasm Generation)の新たな問題,すなわち特定の画像に対してサーカシックな記述を生成することを検討する。
CMSGは、モデルがサルカズムの特性と異なるモード間の相関を満たす必要があるため、困難である。
さらに、2つのモダリティの間にはいくつかの矛盾があり、想像力が必要です。
さらに、高品質なトレーニングデータは不十分である。
これらの問題に対処するために,ペアトレーニングデータを用いずに画像からサルコスティックな記述を生成し,クロスモデルサルコズム生成のための抽出-階層型モジュラー法(egrm)を提案する。
具体的には、EGRMはまず、異なるレベルで画像から多様な情報を抽出し、得られた画像タグ、感傷的記述キャプション、コモンセンスに基づく結果を用いて、候補の皮肉テキストを生成する。
そこで,画像-テキスト関係,皮肉性,文法性を考慮した総合的なランキングアルゴリズムを提案し,候補テキストから最終テキストを選択する。
8つのシステムから生成した1200個の画像テキスト対の5つの基準での人間評価と補助的自動評価により,本手法の優位性を示した。
関連論文リスト
- A Survey of Multimodal Sarcasm Detection [32.659528422756416]
サルカスム(Sarcasm)は、発音の文字通りの意味の反対を伝達するために用いられる修辞的な装置である。
これまでに,マルチモーダルサルカズム検出に関する総合的な調査が報告されている。
論文 参考訳(メタデータ) (2024-10-24T16:17:47Z) - Modelling Visual Semantics via Image Captioning to extract Enhanced Multi-Level Cross-Modal Semantic Incongruity Representation with Attention for Multimodal Sarcasm Detection [12.744170917349287]
本研究では,入力三重項を処理可能なマルチモーダルサルカズム検出のための新しいフレームワークを提案する。
提案したモデルは、TwitterのマルチモーダルサルカムとMultiBullyデータセットでそれぞれ92.89%と64.48%の精度を達成する。
論文 参考訳(メタデータ) (2024-08-05T16:07:31Z) - Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - Researchers eye-view of sarcasm detection in social media textual
content [0.0]
ソーシャルメディアにおけるあらゆる形態のコミュニケーションにおける皮肉文の使用は、ターゲットユーザに対する生理的効果をもたらす。
本稿では,様々なサルカズム検出手法について論じ,いくつかのアプローチ,および最適な特徴を持つ関連するデータセットを結論づける。
論文 参考訳(メタデータ) (2023-04-17T19:45:10Z) - Polarity based Sarcasm Detection using Semigraph [0.0]
本稿では, セミグラフの創発的手法について述べる。
テキスト文書のパターン関連性には、このセミグラフのバリエーションが示唆される。
提案手法は, セミグラフを用いて, 文書のサーカストと非サーカストの極性スコアを求める。
論文 参考訳(メタデータ) (2023-04-04T00:13:55Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - HumanDiffusion: a Coarse-to-Fine Alignment Diffusion Framework for
Controllable Text-Driven Person Image Generation [73.3790833537313]
制御可能な人物画像生成は、デジタルヒューマンインタラクションや仮想トライオンといった幅広い応用を促進する。
テキスト駆動型人物画像生成のための粗大なアライメント拡散フレームワークHumanDiffusionを提案する。
論文 参考訳(メタデータ) (2022-11-11T14:30:34Z) - Towards Multi-Modal Sarcasm Detection via Hierarchical Congruity
Modeling with Knowledge Enhancement [31.97249246223621]
サルカスム(Sarcasm)は、文字通りの意味と暗示意図の相違を示す言語現象である。
既存の技術のほとんどは、テキスト入力と付随する画像の間の原子レベルの不整合をモデル化しただけだった。
本稿では,マルチヘッドのクロスアテンション機構に基づく原子レベルの合同性と,グラフニューラルネットワークに基づく合成レベルの合同性の両方を探索し,サルカズム検出のための新しい階層的枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-07T12:44:33Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z) - $R^3$: Reverse, Retrieve, and Rank for Sarcasm Generation with
Commonsense Knowledge [51.70688120849654]
非皮肉な入力文に基づくサルカズム生成のための教師なしアプローチを提案する。
本手法では,サルカズムの2つの主要な特徴をインスタンス化するために,検索・編集の枠組みを用いる。
論文 参考訳(メタデータ) (2020-04-28T02:30:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。