論文の概要: Beyond Unimodal Shortcuts: MLLMs as Cross-Modal Reasoners for Grounded Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2602.04486v1
- Date: Wed, 04 Feb 2026 12:12:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.519818
- Title: Beyond Unimodal Shortcuts: MLLMs as Cross-Modal Reasoners for Grounded Named Entity Recognition
- Title(参考訳): 一様ショートカットを超えたMLLM - 接地型名前付きエンティティ認識のためのクロスモーダル推論器
- Authors: Jinlong Ma, Yu Zhang, Xuefeng Bai, Kehai Chen, Yuwei Wang, Zeming Liu, Jun Yu, Min Zhang,
- Abstract要約: GMNER(Multimodal Named Entity Recognition)は、テキストベースのエンティティを抽出し、セマンティックカテゴリを割り当て、それらを対応する視覚領域に接地することを目的としている。
MLLMは、視覚バイアスやテキストバイアスを含む$textbfmodality bias$を示す。
本稿では,モダリティを考慮した一貫性推論(bfMCR$)を提案する。
- 参考スコア(独自算出の注目度): 51.68340973140949
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Grounded Multimodal Named Entity Recognition (GMNER) aims to extract text-based entities, assign them semantic categories, and ground them to corresponding visual regions. In this work, we explore the potential of Multimodal Large Language Models (MLLMs) to perform GMNER in an end-to-end manner, moving beyond their typical role as auxiliary tools within cascaded pipelines. Crucially, our investigation reveals a fundamental challenge: MLLMs exhibit $\textbf{modality bias}$, including visual bias and textual bias, which stems from their tendency to take unimodal shortcuts rather than rigorous cross-modal verification. To address this, we propose Modality-aware Consistency Reasoning ($\textbf{MCR}$), which enforces structured cross-modal reasoning through Multi-style Reasoning Schema Injection (MRSI) and Constraint-guided Verifiable Optimization (CVO). MRSI transforms abstract constraints into executable reasoning chains, while CVO empowers the model to dynamically align its reasoning trajectories with Group Relative Policy Optimization (GRPO). Experiments on GMNER and visual grounding tasks demonstrate that MCR effectively mitigates modality bias and achieves superior performance compared to existing baselines.
- Abstract(参考訳): Grounded Multimodal Named Entity Recognition (GMNER) は、テキストベースのエンティティを抽出し、セマンティックカテゴリを割り当て、それらを対応する視覚領域に接地することを目的としている。
本研究では,Multimodal Large Language Models(MLLM)がGMNERをエンド・ツー・エンドで動作させる可能性を探究する。
MLLMs exhibit $\textbf{modality bias}$, including visual bias and textual bias, which is derived to take unimodal shortcuts than rigorous cross-modal verification。
そこで我々は,Multi-style Reasoning Schema Injection (MRSI) とConstraint-guided Verifiable Optimization (CVO) を通じて,構造化された相互モーダル推論を強制するModality-aware Consistency Reasoning (\textbf{MCR}$)を提案する。
MRSIは抽象的制約を実行可能な推論連鎖に変換する一方、CVOはその推論軌道をグループ相対ポリシー最適化(GRPO)と動的に整合させる権限をモデルに与える。
GMNERおよび視覚的グラウンドタスクの実験により、MCRはモダリティバイアスを効果的に軽減し、既存のベースラインよりも優れた性能を達成することが示された。
関連論文リスト
- Guided Verifier: Collaborative Multimodal Reasoning via Dynamic Process Supervision [11.159231524113764]
マルチモーダル大規模言語モデル(MLLM)の複雑な推論能力を高めるための重要なメカニズムとして強化学習(RL)が登場した。
本稿では,これらの構造的制約に対処する textbfGuided Verifier フレームワークを提案する。
我々は,マルチモーダル幻覚をターゲットとした特殊なデータ合成パイプラインを開発し,プロセスレベルの負の textbfCoRe データセットとtextbfCorrect-guide textbfReasoning トラジェクトリを構築し,ガイド付き検証器を訓練する。
論文 参考訳(メタデータ) (2026-02-04T07:38:42Z) - Refer-Agent: A Collaborative Multi-Agent System with Reasoning and Reflection for Referring Video Object Segmentation [50.22481337087162]
Referring Video Object (RVOS)は、テキストクエリに基づいたビデオ内のオブジェクトのセグメンテーションを目的としている。
Refer-Agent (Refer-Agent) は、共用多エージェントシステムである。
SFTベースのモデルとゼロショットアプローチの両方を含む最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2026-02-03T14:48:12Z) - Reasoning Guided Embeddings: Leveraging MLLM Reasoning for Improved Multimodal Retrieval [25.629529312687694]
マルチモーダル大言語モデル(MLLM)の生成合理的なプロセスを保存するReasoning Guided Embeddings (RGE)を提案する。
提案手法はまず,命令に条件付き構造的有理数生成を実行し,推論が展開された後に表現を抽出する。
MMEBベンチマークの実験では、推論誘導条件が非推論ベースラインよりも4.9%向上することが示された。
論文 参考訳(メタデータ) (2025-11-20T08:44:47Z) - CIR-CoT: Towards Interpretable Composed Image Retrieval via End-to-End Chain-of-Thought Reasoning [93.05917922306196]
Composed Image Retrieval (CIR) は、参照画像と修正テキストから対象画像を見つけることを目的としている。
CIR-CoTは、明示的なChain-of-Thought (CoT)推論を統合するために設計された最初のエンドツーエンド検索指向MLLMである。
論文 参考訳(メタデータ) (2025-10-09T09:41:45Z) - Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - Evaluating and Steering Modality Preferences in Multimodal Large Language Model [42.828461839307174]
マルチモーダル大言語モデル(MLLM)は、マルチモーダルコンテキストを持つ複雑なタスクにおいて顕著なパフォーマンスを実現している。
実験対象のMLLMは, すべて明らかなモダリティバイアスを示し, 外部介入の影響を受けやすいことがわかった。
本稿では,モダリティの選好を明示的に制御するための表現工学に基づく探索・操舵手法を提案する。
論文 参考訳(メタデータ) (2025-05-27T10:07:59Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。