論文の概要: ViSP: A PPO-Driven Framework for Sarcasm Generation with Contrastive Learning
- arxiv url: http://arxiv.org/abs/2507.09482v1
- Date: Sun, 13 Jul 2025 04:03:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:23.278585
- Title: ViSP: A PPO-Driven Framework for Sarcasm Generation with Contrastive Learning
- Title(参考訳): ViSP: コントラスト学習によるサルカズム生成のためのPPO駆動フレームワーク
- Authors: Changli Wang, Rui Wu, Fang Yin,
- Abstract要約: M2SaGは4,970個のサンプルを持つマルチモーダルサルカズム生成データセットであり,それぞれが画像,皮肉テキスト,皮肉ターゲットを含む。
M2SaGをベンチマークするために,PPO(Proximal Policy Optimization)とコントラスト学習を統合した生成フレームワークであるViSPを提案する。
提案手法は,5つの測度集合にまたがる ViSP の評価を行い,大言語モデルを含むすべてのベースラインを超越し,サルカズム生成の限界を過小評価する。
- 参考スコア(独自算出の注目度): 4.440035845914307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human emotions are complex, with sarcasm being a subtle and distinctive form. Despite progress in sarcasm research, sarcasm generation remains underexplored, primarily due to the overreliance on textual modalities and the neglect of visual cues, as well as the mismatch between image content and sarcastic intent in existing datasets. In this paper, we introduce M2SaG, a multimodal sarcasm generation dataset with 4,970 samples, each containing an image, a sarcastic text, and a sarcasm target. To benchmark M2SaG, we propose ViSP, a generation framework that integrates Proximal Policy Optimization (PPO) and contrastive learning. PPO utilizes reward scores from DIP to steer the generation of sarcastic texts, while contrastive learning encourages the model to favor outputs with higher reward scores. These strategies improve overall generation quality and produce texts with more pronounced sarcastic intent. We evaluate ViSP across five metric sets and find it surpasses all baselines, including large language models, underscoring their limitations in sarcasm generation. Furthermore, we analyze the distributions of Sarcasm Scores and Factual Incongruity for both M2SaG and the texts generated by ViSP. The generated texts exhibit higher mean Sarcasm Scores (0.898 vs. 0.770) and Factual Incongruity (0.768 vs. 0.739), demonstrating that ViSP produces higher-quality sarcastic content than the original dataset. % The dataset and code will be publicly available. Our dataset and code will be released at \textit{https://github.com/wclapply/ViSP}.
- Abstract(参考訳): 人間の感情は複雑で、皮肉は微妙で独特な形態である。
サルカズム研究の進展にもかかわらず、サルカズム生成は、主にテキストのモダリティへの過度な依存と視覚的手がかりの無視、および既存のデータセットにおける画像内容と皮肉的意図のミスマッチにより、未発見のままである。
本稿では,4,970個のサンプルを持つマルチモーダル・サルカズム生成データセットであるM2SaGを紹介する。
M2SaGをベンチマークするために,PPO(Proximal Policy Optimization)とコントラスト学習を統合した生成フレームワークであるViSPを提案する。
PPOはDIPの報酬スコアを利用してサーカシックテキストの生成を制御し、対照的な学習はより高い報酬スコアの出力をモデルに推奨する。
これらの戦略は、全体の生成品質を改善し、より顕著な皮肉な意図でテキストを生成する。
提案手法は,5つの測度集合にまたがる ViSP の評価を行い,大言語モデルを含むすべてのベースラインを超越し,サルカズム生成の限界を過小評価する。
さらに、M2SaGとViSPによって生成されたテキストのSarcasm ScoresとFactual Incongruityの分布を分析する。
生成されたテキストは、Sarcasm Scores (0.898 vs. 0.770) と Factual Incongruity (0.768 vs. 0.739) のより高い平均値を示し、ViSPが元のデータセットよりも高品質なサーカシックコンテンツを生成することを示した。
% データセットとコードは公開されます。
私たちのデータセットとコードは、textit{https://github.com/wclapply/ViSP}でリリースされます。
関連論文リスト
- On the Impact of Language Nuances on Sentiment Analysis with Large Language Models: Paraphrasing, Sarcasm, and Emojis [0.3774866290142281]
大きな言語モデル(LLM)は、感情分析を含む様々なタスクで素晴らしいパフォーマンスを示している。
本研究は、絵文字や皮肉を含むテキストのニュアンスが感情分析にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2025-04-08T01:29:58Z) - Sarcasm in Sight and Sound: Benchmarking and Expansion to Improve
Multimodal Sarcasm Detection [68.82684696740134]
我々は、MUStARDデータセットを最先端の言語、スピーチ、ビジュアルエンコーダでベンチマークし、提供しなければならないマルチモーダルリッチネスの総量を完全に活用する。
emphMUStARD++ Balancedと呼ばれるエクステンションを提案し、エクステンションのインスタンスを列車とテストセットの両方に分割してベンチマークし、さらに2.4%のマクロF1向上を実現した。
論文 参考訳(メタデータ) (2023-09-29T07:00:41Z) - MMSD2.0: Towards a Reliable Multi-modal Sarcasm Detection System [57.650338588086186]
本稿では,MMSDの欠点を修正する補正データセットMMSD2.0を紹介する。
マルチビューCLIPと呼ばれる,複数視点から多粒度キューを活用可能な新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-14T03:22:51Z) - UATVR: Uncertainty-Adaptive Text-Video Retrieval [90.8952122146241]
一般的なプラクティスは、テキストとビデオのペアを同じ埋め込みスペースに転送し、特定のエンティティとのクロスモーダルなインタラクションを構築することである。
UATVRと呼ばれる不確実性言語によるテキスト・ビデオ検索手法を提案し、各ルックアップを分布マッチング手順としてモデル化する。
論文 参考訳(メタデータ) (2023-01-16T08:43:17Z) - HIT-SCIR at MMNLU-22: Consistency Regularization for Multilingual Spoken
Language Understanding [56.756090143062536]
本稿では,ハイブリッドデータ拡張戦略に基づく一貫性の正則化を提案する。
フルデータセットとゼロショット設定の両方で、MASSIVEデータセット上で実験を行う。
提案手法はインテント検出とスロット充足の両方の性能を向上させる。
論文 参考訳(メタデータ) (2023-01-05T11:21:15Z) - Sarcasm Detection Framework Using Emotion and Sentiment Features [62.997667081978825]
本研究では,感情と感情の特徴を取り入れたモデルを提案する。
我々のアプローチは、ソーシャルネットワークプラットフォームとオンラインメディアの4つのデータセットに対して、最先端の結果を得た。
論文 参考訳(メタデータ) (2022-11-23T15:14:44Z) - How to Describe Images in a More Funny Way? Towards a Modular Approach
to Cross-Modal Sarcasm Generation [62.89586083449108]
本稿では,CMSG(Cross-modal sarcasm Generation)の新たな問題,すなわち,与えられた画像に対してサーカシックな記述を生成することについて検討する。
CMSGは、異なるモード間の相関だけでなく、サルカズムの特性をモデルが満たさなければならないため、困難である。
クロスモデルサルカズム生成のための抽出・生成・生成に基づくモジュール法(EGRM)を提案する。
論文 参考訳(メタデータ) (2022-11-20T14:38:24Z) - Sarcasm Detection in Twitter -- Performance Impact when using Data
Augmentation: Word Embeddings [0.0]
サルカスム(Sarcasm)は、通常、誰かをモックしたり、困惑させたり、ユーモラスな目的のために使われる言葉である。
本稿では,RoBERTaを用いたTwitterにおける皮肉識別のコンテキストモデルを提案する。
サーカシックとラベル付けされたデータの20%を増やすために、データ拡張を使用する場合、iSarcasmデータセットで3.2%の性能向上を実現した。
論文 参考訳(メタデータ) (2021-08-23T04:24:12Z) - Parallel Deep Learning-Driven Sarcasm Detection from Pop Culture Text
and English Humor Literature [0.76146285961466]
ベンチマークポップカルチャー Sarcasm corpus のサーカシックな単語分布特徴を手作業で抽出する。
このような単語から重み付きベクトルからなる入力シーケンスを生成する。
提案するサルカズム検出モデルは,提案したデータセットを用いてトレーニングした場合,98.95%のトレーニング精度をピークとする。
論文 参考訳(メタデータ) (2021-06-10T14:01:07Z) - Sarcasm Detection using Context Separators in Online Discourse [3.655021726150369]
サルカズム(Sarcasm)は、意味が暗黙的に伝えられる複雑な形態の言語である。
本研究では,RoBERTa_largeを用いて2つのデータセットの皮肉を検出する。
また,文脈単語埋め込みモデルの性能向上における文脈の重要性を主張する。
論文 参考訳(メタデータ) (2020-06-01T10:52:35Z) - $R^3$: Reverse, Retrieve, and Rank for Sarcasm Generation with
Commonsense Knowledge [51.70688120849654]
非皮肉な入力文に基づくサルカズム生成のための教師なしアプローチを提案する。
本手法では,サルカズムの2つの主要な特徴をインスタンス化するために,検索・編集の枠組みを用いる。
論文 参考訳(メタデータ) (2020-04-28T02:30:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。