論文の概要: GRASP: Grounded CoT Reasoning with Dual-Stage Optimization for Multimodal Sarcasm Target Identification
- arxiv url: http://arxiv.org/abs/2604.08879v1
- Date: Fri, 10 Apr 2026 02:38:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.641879
- Title: GRASP: Grounded CoT Reasoning with Dual-Stage Optimization for Multimodal Sarcasm Target Identification
- Title(参考訳): GRASP:Multimodal Sarcasmターゲット同定のためのデュアルステージ最適化による接地CoT推論
- Authors: Faxian Wan, Xiaocui Yang, Yifan Cao, Shi Feng, Daling Wang, Yifei Zhang,
- Abstract要約: GRASPは、ブラックボックスMSTIを越えようという明確なChain-of-Thought(CoT)推論とビジュアルグラウンドを統合したフレームワークである。
我々は,Sarcasm 関連視覚領域を推論軌道内に明示的に固定する Grounded CoT 推論を導入した。
データセットとソースコードはGitHubでリリースされます。
- 参考スコア(独自算出の注目度): 26.21876180083083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Moving beyond the traditional binary classification paradigm of Multimodal Sarcasm Detection, Multimodal Sarcasm Target Identification (MSTI) presents a more formidable challenge, requiring precise localization of fine-grained targets such as textual phrases and visual regions. Existing approaches predominantly rely on implicit cross-modal alignment, offering limited interpretability and suboptimal fine-grained localization. To address these limitations, we propose GRASP, Grounded Chain-of-Thought ReAsoning with Dual-Stage Optimization for Multimodal Sarcasm Prediction and Target Identification, a framework that integrates visual grounding with explicit Chain-of-Thought (CoT) reasoning to move beyond black-box MSTI. Specifically, we curate MSTI-MAX, a refined dataset that mitigates class imbalance and enriches multimodal sarcasm cues. We introduce Grounded CoT reasoning, which explicitly anchors sarcasm-related visual regions within the reasoning trajectory and prompts the model to articulate rationales before predicting the final classification labels and sarcasm targets. Furthermore, we employ a dual-stage outcome-supervised joint optimization strategy: Supervised Fine-Tuning with a coordinate-aware weighted loss, followed by Fine-Grained Target Policy Optimization. Extensive experiments demonstrate that GRASP outperforms existing baselines in fine-grained sarcasm target identification across modalities, and an LLM-as-a-Judge evaluation quantitatively measures the quality of internal reasoning chains. Our dataset and source code will be released on GitHub.
- Abstract(参考訳): Multimodal Sarcasm Detectionの伝統的なバイナリ分類パラダイムを超えて、Multimodal Sarcasm Target Identification (MSTI)は、テキストフレーズや視覚領域のようなきめ細かいターゲットの正確な位置決めを必要とする、より恐ろしい課題を提示している。
既存のアプローチは主に暗黙のクロスモーダルアライメントに依存しており、限定的な解釈可能性と準最適微粒化を提供する。
これらの制約に対処するため,マルチモーダルサルカズム予測とターゲット同定のための2段階最適化を用いたGRASP,Grounded Chain-of-Thought ReAsoningを提案する。
特にMSTI-MAXは,クラス不均衡を緩和し,マルチモーダルサルカズムの手がかりを増強する改良データセットである。
提案するグラウンドドCoT推論は, 推論軌道内のサルカズム関連視覚領域を明示的にアンカーし, 最終的な分類ラベルとサルカズム目標を予測する前に, 有理性を明瞭化するようモデルに促すものである。
さらに、重み付き損失を考慮した修正細調整と、細粒度目標ポリシー最適化の2段階からなる共同最適化戦略を採用した。
LLM-as-a-Judge 評価は内部推論鎖の質を定量的に測定した。
データセットとソースコードはGitHubでリリースされます。
関連論文リスト
- OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:41:36Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Generalized Trajectory Scoring for End-to-end Multimodal Planning [42.38746285135693]
Generalized Trajectory Scoring (GTRS)は、エンドツーエンドのマルチモーダル計画のための統合フレームワークである。
GTRSは,(1)多種多様な微細な提案を生成する拡散型軌跡生成装置,(2)高密度軌跡集合のスコアラをドロップアウト正規化で訓練する語彙一般化技術,(3)ドメイン外一般化を強化するセンサ増強戦略の3つの相補的なイノベーションで構成されている。
ナブシムv2チャレンジの勝利解として、GTRSは準最適センサ入力においても優れた性能を示す。
論文 参考訳(メタデータ) (2025-06-07T05:06:05Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - RBF++: Quantifying and Optimizing Reasoning Boundaries across Measurable and Unmeasurable Capabilities for Chain-of-Thought Reasoning [60.84707424369494]
CoT(Chain-of-Thought)推論は、複雑なタスクにおける大規模言語モデル(LLM)の強化に有効であることが証明されている。
CoT 機能の計測可能なバウンダリの評価と最適化を行うフレームワークである Reasoning Boundary Framework++ (RBF++) を紹介する。
論文 参考訳(メタデータ) (2025-05-19T16:25:55Z) - CofiPara: A Coarse-to-fine Paradigm for Multimodal Sarcasm Target Identification with Large Multimodal Models [14.453131020178564]
本稿では,大きめのパラダイムを持つ多目的MSTIフレームワークを提案する。
マルチモーダル推論におけるLMM(Large Multimodal Models)の強力な能力に着想を得て、まずLMMに取り組み、マルチモーダルサルカズム検出における小言語モデルの粗粒化事前学習のための競合する有理性を生成する。
そこで本稿では,LMM に内在する潜在的なノイズによる負の影響を緩和し,より微細な目標同定モデルを提案する。
論文 参考訳(メタデータ) (2024-05-01T08:44:44Z) - TOT: Topology-Aware Optimal Transport For Multimodal Hate Detection [18.015012133043093]
我々は,ミームシナリオにおける暗黙の害を解読するトポロジ対応の最適輸送フレームワークTOTを提案する。
具体的には、最適なトランスポートカーネル法を利用して、複数のモードから補完情報をキャプチャする。
公開された2つのベンチマークデータセット上で新たに達成された最先端のパフォーマンスは、さらなるビジュアル分析とともに、TOTの優位性を示している。
論文 参考訳(メタデータ) (2023-02-27T06:58:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。