論文の概要: ReMoD: Rethinking Modality Contribution in Multimodal Stance Detection via Dual Reasoning
- arxiv url: http://arxiv.org/abs/2511.06057v1
- Date: Sat, 08 Nov 2025 15:56:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.733175
- Title: ReMoD: Rethinking Modality Contribution in Multimodal Stance Detection via Dual Reasoning
- Title(参考訳): ReMoD:デュアル推論によるマルチモーダルスタンス検出におけるモダリティ寄与の再考
- Authors: Bingbing Wang, Zhengda Jin, Bin Liang, Jing Li, Ruifeng Xu,
- Abstract要約: マルチモーダルスタンス検出(MSD)はソーシャルメディア上での世論を理解する上で重要な課題である。
既存の作業は、様々なモダリティからの情報を融合してスタント表現を学習し、異なるモダリティからのスタント表現の様々なコントリビューションを見下ろしている。
ReMoD*は**Re**が**Mo**の姿勢表現への貢献を**D**al-reasoningパラダイムを通して考えるためのフレームワークである。
- 参考スコア(独自算出の注目度): 29.400983680521733
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal Stance Detection (MSD) is a crucial task for understanding public opinion on social media. Existing work simply fuses information from various modalities to learn stance representations, overlooking the varying contributions of stance expression from different modalities. Therefore, stance misunderstanding noises may be drawn into the stance learning process due to the risk of learning errors by rough modality combination. To address this, we get inspiration from the dual-process theory of human cognition and propose **ReMoD**, a framework that **Re**thinks **Mo**dality contribution of stance expression through a **D**ual-reasoning paradigm. ReMoD integrates *experience-driven intuitive reasoning* to capture initial stance cues with *deliberate reflective reasoning* to adjust for modality biases, refine stance judgments, and thereby dynamically weight modality contributions based on their actual expressive power for the target stance. Specifically, the intuitive stage queries the Modality Experience Pool (MEP) and Semantic Experience Pool (SEP) to form an initial stance hypothesis, prioritizing historically impactful modalities. This hypothesis is then refined in the reflective stage via two reasoning chains: Modality-CoT updates MEP with adaptive fusion strategies to amplify relevant modalities, while Semantic-CoT refines SEP with deeper contextual insights of stance semantics. These dual experience structures are continuously refined during training and recalled at inference to guide robust and context-aware stance decisions. Extensive experiments on the public MMSD benchmark demonstrate that our ReMoD significantly outperforms most baseline models and exhibits strong generalization capabilities.
- Abstract(参考訳): マルチモーダルスタンス検出(MSD)はソーシャルメディア上での世論を理解する上で重要な課題である。
既存の作業は、様々なモダリティからの情報を融合してスタント表現を学習し、異なるモダリティからのスタント表現の様々なコントリビューションを見下ろしている。
したがって、大まかなモダリティの組み合わせによる学習ミスのリスクにより、スタンス学習過程にスタンス誤解ノイズが引き起こされることがある。
これを解決するために、人間の認知の二重プロセス理論からインスピレーションを得て、**Re**が*****の姿勢表現に対する**Mo**の貢献を**D**al-reasoningパラダイムを通じて提案する**ReMoD**を提案する。
ReMoD は *experience-driven intuitive reasoning* を統合し、最初のスタンスキューを *deliberate Reflective reasoning* にキャプチャして、モダリティバイアスを調整し、姿勢判断を洗練させ、それによって、ターゲットスタンスに対する実際の表現力に基づいて、動的にウェイトモダリティ貢献を行う。
具体的には、直感的なステージがモダリティ体験プール(MEP)とセマンティック体験プール(SEP)に問い合わせ、歴史的に影響のあるモダリティを優先する最初のスタンス仮説を形成する。
モダリティ-CoTは関連するモダリティを増幅するために適応融合戦略でMEPを更新し、セマンティック-CoTはスタンス・セマンティクスのより深い文脈的洞察でSEPを洗練する。
これらの二重体験構造は、トレーニング中に継続的に洗練され、推論時にリコールされ、堅牢でコンテキスト対応の姿勢決定を導く。
公開MMSDベンチマークの大規模な実験により、ReMoDはほとんどのベースラインモデルより大幅に優れ、強力な一般化能力を示すことが示された。
関連論文リスト
- From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization [62.07990937720985]
DRM(Dimension-level Reward Model)は、大規模言語モデルのための新しい監視フレームワークである。
DRMは3つの基本的、相補的、解釈可能な次元に沿って推論プロセスの品質を評価する。
実験の結果、DRMは効果的な監視信号を提供し、LCMの最適化を誘導し、推論能力を向上することが示された。
論文 参考訳(メタデータ) (2025-10-13T14:29:15Z) - CMR-SPB: Cross-Modal Multi-Hop Reasoning over Text, Image, and Speech with Path Balance [10.843417240658992]
クロスモーダル・マルチホップ推論(CMR)は、マルチモーダル・大規模言語モデル(MLLM)の重要かつ未探索の能力である。
この能力を評価するための既存のベンチマークには、重大な欠点がある、と我々は主張する。
CMR-SPB (Cross-Modal Multi-Hop Reasoning over Text, Image and Speech with Path Balance) という新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-08-22T08:17:31Z) - Coherent Multimodal Reasoning with Iterative Self-Evaluation for Vision-Language Models [4.064135211977999]
大規模言語モデル (LLMs) と視覚言語モデル (LVLMs) は複雑で多段階のクロスモーダルな常識推論タスクに苦しむ。
我々は,LVLMの共通感覚推論能力を高める新しいアプローチであるコヒーレント・マルチモーダル推論フレームワーク(CMRF)を提案する。
CMRFは複雑なクエリを分解し、ステップバイステップの推論を生成し、エラーを自己修正することで人間の問題解決を模倣する。
論文 参考訳(メタデータ) (2025-08-04T20:33:58Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization [26.757458496178437]
視覚知覚と深い推論のギャップを埋めるために設計されたマルチモーダル推論モデルであるR1-Onevisionを紹介する。
我々はR1-Onevisionデータセットを構築し、多様なドメインにまたがる詳細かつステップバイステップのマルチモーダル推論アノテーションを提供する。
先進的推論を育成するために,教師付き微調整と強化学習によりR1-Onevisionモデルをさらに発展させる。
実験結果から,R1-OnevisionはGPT-4oやQwen2.5-VLなど,最先端のモデルよりも優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-03-13T17:56:05Z) - CoLA: Conditional Dropout and Language-driven Robust Dual-modal Salient Object Detection [12.780661306169474]
我々はtextbfConditional Dropout と textbfLAnguage-driven(textbfCoLA) フレームワークを紹介する。
このフレームワークは、ノイズの多い入力の影響を軽減し、その性能を完全なモダリティで保存する。
モダリティ完全条件とモダリティ欠如条件の両方の下で、最先端のデュアルモーダルSODモデルより優れている。
論文 参考訳(メタデータ) (2024-07-09T11:49:24Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - Anticipating the Unseen Discrepancy for Vision and Language Navigation [63.399180481818405]
視覚言語ナビゲーションでは、エージェントは特定のターゲットに到達するために自然言語命令に従う必要がある。
目に見える環境と目に見えない環境の間に大きな違いがあるため、エージェントがうまく一般化することは困難である。
本研究では,テストタイムの視覚的整合性を促進することによって,未知の環境への一般化を学習する,未知の離散性予測ビジョンと言語ナビゲーション(DAVIS)を提案する。
論文 参考訳(メタデータ) (2022-09-10T19:04:40Z) - Learning Relation Alignment for Calibrated Cross-modal Retrieval [52.760541762871505]
言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。
ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
論文 参考訳(メタデータ) (2021-05-28T14:25:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。