論文の概要: PostAlign: Multimodal Grounding as a Corrective Lens for MLLMs
- arxiv url: http://arxiv.org/abs/2506.17901v1
- Date: Sun, 22 Jun 2025 05:11:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.643925
- Title: PostAlign: Multimodal Grounding as a Corrective Lens for MLLMs
- Title(参考訳): PostAlign:MLLMの矯正レンズとしてのマルチモーダルグラウンド
- Authors: Yixuan Wu, Yang Zhang, Jian Wu, Philip Torr, Jindong Gu,
- Abstract要約: MLLM(Multimodal Large Language Models)は、画像キャプションや視覚的質問応答などの視覚言語タスクに優れる。
主に、モデルが実際の視覚情報を活用するのを妨げている言語的先行性のために、急激な相関に対する過度な信頼に悩まされることが多い。
MMed-PostAlignは、視覚的理解能力を高め、MLLMの幻覚を軽減するために設計された、マルチモーダル後のアライメントフレームワークである。
- 参考スコア(独自算出の注目度): 23.69973859198496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) excel in vision-language tasks, such as image captioning and visual question answering. However, they often suffer from over-reliance on spurious correlations, primarily due to linguistic priors that distract the model from leveraging actual visual information. To address these issues, we introduce MMGrounded-PostAlign, a post-multimodal alignment framework designed to enhance the visual understanding capabilities and mitigate the hallucinations of MLLMs. Our framework incorporates a multimodal grounding module for both visual grounding, which identifies the referred object in the image, and textual grounding, which generates the rationale for the final answer, ensuring that outputs are anchored in both visual and textual evidence. To mitigate the hallucinations, we introduce a negative rejection mechanism in the visual grounding module to distinguish grounded entities from non-existent objects influenced by linguistic biases. On the textual grounding side, we propose a selective reasoning mechanism that adjusts the model's reasoning strategy based on query complexity. Extensive evaluations are conducted on benchmarks such as POPE, HaloQuest, VQAv2, MME, and MMBench showing significant improvements in fine-grained visual understanding and hallucination suppression.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、画像キャプションや視覚的質問応答などの視覚言語タスクに優れる。
しかし、これらは、主に、モデルが実際の視覚情報を活用するのを妨げている言語的先行性のために、急激な相関に対する過度な信頼に悩まされることが多い。
MMGrounded-PostAlignは、視覚的理解能力を高め、MLLMの幻覚を軽減するために設計された、マルチモーダル後のアライメントフレームワークである。
本フレームワークは,画像中の参照対象を識別するマルチモーダルグラウンドモジュールと,最終回答の根拠を生成するテキストグラウンドモジュールを備え,出力が視覚的およびテキスト的エビデンスに固定されていることを保証している。
幻覚を緩和するため,視覚的接地モジュールに否定的な拒絶機構を導入し,言語的バイアスの影響を受けない物体から接地対象を識別する。
テキストの接地側では、クエリの複雑さに基づいてモデルの推論戦略を調整する選択的推論機構を提案する。
POPE, HaloQuest, VQAv2, MME, MMBenchなどのベンチマークでは, 視覚の微粒化と幻覚抑制の大幅な改善が見られた。
関連論文リスト
- MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM [58.2298313720146]
マルチモーダル幻覚は多源性であり、様々な原因から生じる。
既存のベンチマークでは、知覚誘発幻覚と推論誘発幻覚を適切に区別することができない。
論文 参考訳(メタデータ) (2025-05-30T05:54:36Z) - Thinking Before Looking: Improving Multimodal LLM Reasoning via Mitigating Visual Hallucination [13.706325901731665]
MLLM(Multimodal large language model)は、視覚的・言語的モダリティの統合を推進している。
思考の連鎖(CoT)推論のような現在のアプローチは、大規模言語モデル(LLM)の認知能力を増強している。
しかし、MLLMへの適応は、相互モダリティ理解における幻覚のリスクの増大によって妨げられている。
論文 参考訳(メタデータ) (2024-11-15T21:01:37Z) - MR-MLLM: Mutual Reinforcement of Multimodal Comprehension and Vision Perception [24.406224705072763]
Mutually Reinforced Multimodal Large Language Model (MR-MLLM) は視覚知覚とマルチモーダル理解を高める新しいフレームワークである。
まず、視覚モデルからの詳細な視覚入力と言語モデルの言語深度を調和させるために、共有クエリ融合機構を提案する。
第2に、視覚知覚出力から新たなモダリティを取り入れた、知覚強化型クロスモーダル積分法を提案する。
論文 参考訳(メタデータ) (2024-06-22T07:10:36Z) - Plug-and-Play Grounding of Reasoning in Multimodal Large Language Models [6.695747085909927]
MLLMにおけるプラグ・アンド・プレイグラウンドのための新しいフレームワークであるP2Gを紹介する。
P2Gは、画像内の重要な視覚的およびテキスト的要素への推論のオンザフライグラウンド化に専門家エージェントを使用している。
高解像度画像におけるオブジェクト間関係とテキスト内容の理解におけるMLLMの習熟度を評価するためのベンチマークであるP2GBを開発する。
論文 参考訳(メタデータ) (2024-03-28T11:26:30Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [50.77984109941538]
近年のマルチモーダル LLM の視覚能力は, いまだに系統的な欠点を呈している。
CLIP-blind pairs'(CLIP-blind pairs)を識別する。
様々なCLIPに基づく視覚・言語モデルの評価を行い、CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。
論文 参考訳(メタデータ) (2024-01-11T18:58:36Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。
MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。