論文の概要: ProCrit: Self-Elicited Multi-Perspective Reasoning with Critic-Guided Revision for Multimodal Sarcasm Detection
- arxiv url: http://arxiv.org/abs/2605.20867v1
- Date: Wed, 20 May 2026 08:02:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.562546
- Title: ProCrit: Self-Elicited Multi-Perspective Reasoning with Critic-Guided Revision for Multimodal Sarcasm Detection
- Title(参考訳): ProCrit:Multimodal Sarcasm検出のための批判ガイドによる自己誘発多目的推論
- Authors: Yingjia Xu, Jiulong Wu, Bowen Zhang, Baokui Guo, Siyuan Chai, Min Cao,
- Abstract要約: マルチモーダルサルカズム検出は、リテラル表現と意図した意味の相互不一致を推論する必要がある。
マルチモーダル・サルカズム検出は、代わりに自己効能を持つマルチパースペクティブ推論を要求する。
本稿では,マルチパースペクティブ推論のための提案エージェントと,外部評価のための批判エージェントと,対象とするリビジョンガイダンスを備えた2エージェントフレームワークProCritを提案する。
- 参考スコア(独自算出の注目度): 9.021525884802841
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal sarcasm detection requires reasoning over cross-modal incongruities between literal expression and intended meaning, yet the specific analytical perspectives needed vary across samples due to the diversity of sarcastic mechanisms. While recent methods make this analytical process explicit, they still rely on fixed, predefined perspectives that operate independently under hand-crafted routing rules. We argue that multimodal sarcasm detection instead calls for self-elicited multi-perspective reasoning, where a model autonomously generates the perspectives needed for each sample and progressively integrates them into a coherent analysis. To realize this goal, we propose ProCrit, a Proposal-Critic two-agent framework with a proposal agent for multi-perspective reasoning and a critic agent for external evaluation and targeted revision guidance. First, to overcome the lack of process-level supervision in existing sarcasm datasets, ProCrit synthesizes process-level reasoning annotations through a dynamic-role agentic rollout: a strong vision-language model sequentially spawns analytical roles within a shared context, and the resulting multi-role trajectories are flattened into sequences that preserve cross-perspective dependencies while enabling efficient autoregressive generation. Second, to improve reasoning reliability, ProCrit adopts a draft-critique-revise paradigm in which an independent critic identifies reasoning deficiencies and provides targeted natural-language feedback for directed revision. Finally, we develop a mutual-refinement training framework that jointly optimizes proposal drafting and feedback-guided revision via dual-stage reinforcement learning, while refining the critic agent according to the actual effectiveness of its feedback. Experiments on three widely used benchmarks demonstrate the effectiveness of ProCrit.
- Abstract(参考訳): マルチモーダルサルカズム検出はリテラル表現と意図された意味の相互不一致を推論する必要があるが、サーカシック機構の多様性のため、特定の解析的視点はサンプルによって異なる。
最近の手法では、この分析プロセスを明確化しているが、手作りのルーティングルールの下で独立して動作する固定された事前定義された視点に依存している。
マルチモーダルサルカズム検出は、モデルが各サンプルに必要な視点を自律的に生成し、それらをコヒーレントな分析に徐々に統合する、自己満足型マルチパースペクティブ推論を必要とする。
この目的を達成するために、ProCrit、マルチパースペクティブ推論のための提案エージェント、外部評価のための批判エージェント、ターゲットリビジョンガイダンスを備えた2エージェントフレームワークを提案する。
第一に、既存のサルカズムデータセットにおけるプロセスレベルの監視の欠如を克服するため、ProCritはダイナミック・ロール・エージェント・ロールアウトを通じてプロセスレベルの推論アノテーションを合成する。
第二に、推論の信頼性を向上させるために、ProCritは、独立した批評家が推論の欠陥を識別し、指示された修正のためにターゲットとなる自然言語フィードバックを提供する、ドラフト・批判・修正のパラダイムを採用する。
最後に,提案提案の草案作成と2段階強化学習によるフィードバック指導を共同で最適化する相互調整学習フレームワークを開発し,その実効性に応じて評価エージェントを精査する。
広く使用されている3つのベンチマークの実験では、ProCritの有効性が示されている。
関連論文リスト
- Enhancing Multimodal In-Context Learning via Inductive-Deductive Reasoning [65.15766304205657]
In-context Learning (ICL) は、大規模なモデルをいくつかの例を使ってタスクに適応させるが、視覚言語モデル(VLM)への拡張は脆弱である。
我々の分析によると、基本的な限界は帰納的ギャップにあり、モデルはしばしば欠陥のある推論から正しい答えを導き出す。
帰納的帰納的プロセスとしてマルチモーダル ICL を再構成する枠組みを導入する。
論文 参考訳(メタデータ) (2026-05-04T09:18:19Z) - Learning Structured Reasoning via Tractable Trajectory Control [99.75278337895024]
Ctrl-Rは、トラクタブルな軌道制御を通じて構造化推論を学ぶためのフレームワークである。
Ctrl-Rは,従来達成できなかった推論パターンを効果的に探索し,内部化することができることを示す。
論文 参考訳(メタデータ) (2026-03-02T09:18:19Z) - Beyond Consensus: Perspectivist Modeling and Evaluation of Annotator Disagreement in NLP [25.097081181685613]
アノテーションの不一致は、特に毒性の検出やスタンス分析のような主観的で曖昧なタスクに対して、NLPで広く見られる。
まず、データ、タスク、アノテータ要素にまたがる不一致の原因のドメインに依存しない分類を提示する。
次に,予測対象とプール構造によって定義された共通フレームワークを用いてモデリング手法を合成する。
論文 参考訳(メタデータ) (2026-01-14T01:26:29Z) - Adversarial Yet Cooperative: Multi-Perspective Reasoning in Retrieved-Augmented Language Models [72.4149653187766]
本稿ではAdrialversa Reasoning RAG(ARR)というReasoner-Verifierフレームワークを提案する。
ReasonerとVerifierは、回収された証拠を推論し、プロセス認識の利点によってガイドされながら、互いの論理を批判する。
複数のベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2026-01-08T06:57:03Z) - Generative Reasoning Recommendation via LLMs [48.45009951684554]
大規模言語モデル(LLM)は、生成的推論レコメンデーションモデル(GRRM)として機能する上で、根本的な課題に直面している。
本研究は,レコメンデーションタスクに対する統一的な理解・推論・予測方法を実現する,事前学習されたLLMを適用してGRRMを構築する方法について検討する。
本稿では,協調的セマンティックアライメント(Collaborative-Semantic Alignment),Reasoning Curriculum Activation(Reasoning Curriculum Activation),Sparse-Regularized Group Policy Optimization(Sparse-Regularized Group Policy Optimization)の3つのコンポーネントを統合するエンドツーエンドフレームワークであるGREAMを提案する。
論文 参考訳(メタデータ) (2025-10-23T17:59:31Z) - CMR-SPB: Cross-Modal Multi-Hop Reasoning over Text, Image, and Speech with Path Balance [10.843417240658992]
クロスモーダル・マルチホップ推論(CMR)は、マルチモーダル・大規模言語モデル(MLLM)の重要かつ未探索の能力である。
この能力を評価するための既存のベンチマークには、重大な欠点がある、と我々は主張する。
CMR-SPB (Cross-Modal Multi-Hop Reasoning over Text, Image and Speech with Path Balance) という新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-08-22T08:17:31Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Debate, Deliberate, Decide (D3): A Cost-Aware Adversarial Framework for Reliable and Interpretable LLM Evaluation [0.0]
本稿では、役割特化エージェント間の構造的議論を組織化する、費用対効果のある多エージェントフレームワークであるDebate, Deliberate, Decide(D3)を紹介する。
我々は,反復的議論の下で信頼性と収束性を特徴付けるスコアギャップの確率論的モデルを開発する。
我々は,人間の判断に対する最先端の合意,匿名化による位置バイアスと冗長性バイアスの低減,そして,適切な費用対精度のフロンティアを示す。
論文 参考訳(メタデータ) (2024-10-07T00:22:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。