論文の概要: Some Modalities are More Equal Than Others: Decoding and Architecting Multimodal Integration in MLLMs
- arxiv url: http://arxiv.org/abs/2511.22826v1
- Date: Fri, 28 Nov 2025 01:21:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.738431
- Title: Some Modalities are More Equal Than Others: Decoding and Architecting Multimodal Integration in MLLMs
- Title(参考訳): いくつかのモダリティは、他のものよりも平等である: MLLMにおけるデコーディングとマルチモーダル統合のアーキテクチャ
- Authors: Tianle Chen, Chaitanya Chakka, Arjun Reddy Akula, Xavier Thomas, Deepti Ghadiyaram,
- Abstract要約: MMA-Benchは、特定のモダリティへの依存を調査するビデオとタスクで構成されている。
現在のMLLMは、音声と視覚のペアと単純な誤解を招くテキストが混在している。
本稿では,特定のモダリティ手法を優先し,活用するか,無視するかをモデルに教えるためのモダリティアライメントチューニング戦略を提案する。
- 参考スコア(独自算出の注目度): 5.380090638488105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite remarkable advancements in Multimodal Large Language Models (MLLMs), a fundamental question remains: are MLLMs robust to contradicting modalities? To rigorously study this, we introduce MMA-Bench comprising videos and tasks that probe a model's reliance on specific modalities. Using black-box and white-box interpretability techniques, we provide a critical analysis of the brittleness of both open- and closed-sourced MLLMs. We show that current MLLMs struggle under misaligned audio-visual pairs and simple misleading text, thereby lacking robust multi-modal reasoning. Building on these findings, we propose a modality alignment tuning strategy to teach the model when to prioritize, leverage, or ignore specific modality cues. Through extensive experiments and analysis, we show that our alignment tuning yields demonstrably stronger multimodal grounding. This work provides both interpretability tools and a clear path toward developing MLLMs with intrinsically reliable cross-modal reasoning. Code and dataset will be publicly available.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の顕著な進歩にもかかわらず、根本的な疑問が残る。
これを厳密に研究するために、モデルが特定のモダリティに依存することを調査するビデオとタスクからなるMMA-Benchを紹介する。
ブラックボックスとホワイトボックスの解釈可能性技術を用いて,オープンおよびクローズドソースMLLMの脆さを批判的に解析する。
従来のMLLMは、音声と視覚のペアと単純な誤解を招くテキストが混ざり合っており、堅牢なマルチモーダル推論が欠如していることが示される。
これらの知見に基づいて、特定のモダリティの手がかりを優先、活用、無視するタイミングをモデルに教えるモダリティアライメントチューニング戦略を提案する。
広範囲な実験と解析により、アライメント調整が明らかに強いマルチモーダルグラウンド化をもたらすことを示す。
この研究は、解釈可能性ツールと、本質的に信頼性のあるクロスモーダル推論を用いたMLLMの開発への明確な道筋の両方を提供する。
コードとデータセットが公開される。
関連論文リスト
- NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints [100.02131897927484]
本稿では,Multimodal Large Language Models(MLLM)のエンドツーエンドなネイティブトレーニングに焦点を当てる。
そこで我々は,NaViLと呼ばれるネイティブMLLMと,シンプルで費用対効果の高いレシピを組み合わせて提案する。
14のマルチモーダルベンチマークによる実験結果から,既存のMLLMに対するNaViLの競合性能が確認された。
論文 参考訳(メタデータ) (2025-10-09T17:59:37Z) - Empowering Multimodal LLMs with External Tools: A Comprehensive Survey [61.66069828956139]
MLLM(Multimodal Large Language Models)は、人工知能への有望な経路を指して、様々なマルチモーダルタスクにおいて大きな成功を収めた。
マルチモーダルデータの欠如、複雑な下流タスクの性能の低下、不適切な評価プロトコルがMLLMの信頼性とより広範な適用性を妨げている。
推論と問題解決の強化に外部ツールを活用する人間の能力にインスパイアされたMLLMを外部ツールで強化することは、これらの課題を克服するための有望な戦略を提供する。
論文 参考訳(メタデータ) (2025-08-14T07:25:45Z) - MARBLE: A Hard Benchmark for Multimodal Spatial Reasoning and Planning [10.602434753538535]
複数のモダリティから情報を処理し、それを段階的に分析する能力は、人工知能を進化させる上で重要な課題である。
本稿では,マルチモーダル言語モデルの精査を目的としたマルチモーダル推論ベンチマークであるMARBLEを提案する。
現在のMLLMはMARBLEでは性能が悪く、M-Portalではほぼランダムな性能、M-Cubeでは0%の精度が得られる。
論文 参考訳(メタデータ) (2025-06-28T19:44:32Z) - MLLMs are Deeply Affected by Modality Bias [158.64371871084478]
MLLM(Multimodal Large Language Models)の最近の進歩は、テキストや画像などの多様なモダリティを統合する上で、有望な成果を示している。
MLLMはモダリティバイアスに強く影響され、しばしば言語に依存し、視覚入力のような他のモダリティを過小評価する。
本稿では,MLLMはモダリティバイアスの影響を強く受けており,様々なタスクにまたがってその発現を明らかにする。
論文 参考訳(メタデータ) (2025-05-24T11:49:31Z) - Keeping Yourself is Important in Downstream Tuning Multimodal Large Language Model [63.14883657299359]
MLLM(Multi-modal Large Language Models)は、視覚的および言語的推論を統合して、画像キャプションや視覚的質問応答といった複雑なタスクに対処する。
ダウンストリームタスクのためのMLLMのチューニングには,2つの重要な課題がある。タスク-Expert – 事前トレーニングとターゲットデータセット間の分散シフトによってターゲットのパフォーマンスが制限される。
論文 参考訳(メタデータ) (2025-03-06T15:29:13Z) - Seeing is Understanding: Unlocking Causal Attention into Modality-Mutual Attention for Multimodal LLMs [7.03771340666549]
MLLM(Multimodal Large Language Models)における視覚言語ミスアライメントは重要な課題である。
本稿では,MMA(Modality-mutual attention)に因果的注意を開放し,画像トークンがテキストトークンに参加することを可能にする新しいMLLMであるMapleLeaf AKIを提案する。
我々のMMA設計は汎用的であり、様々なモダリティにまたがるアプリケーションを可能にし、多様なマルチモーダルシナリオに対応できるようにスケーラブルである。
論文 参考訳(メタデータ) (2025-03-04T13:18:33Z) - Position: Empowering Time Series Reasoning with Multimodal LLMs [49.73647759532127]
マルチモーダル言語モデル (MLLM) は時系列解析においてより強力で柔軟な推論を可能にすると論じる。
我々は、MLLMにおける信頼、解釈可能性、堅牢な推論を優先する戦略を開発することで、この可能性を活用するよう研究者や実践者に呼びかける。
論文 参考訳(メタデータ) (2025-02-03T16:10:48Z) - Quantifying and Mitigating Unimodal Biases in Multimodal Large Language Models: A Causal Perspective [9.633811630889237]
本稿では,視覚質問応答(VQA)問題におけるバイアスを解釈するための因果的枠組みを提案する。
マルチホップ推論を必要とする12,000の挑戦VQAインスタンスを備えた新しいデータセットを導入する。
実験の結果, MLLMはMOREに悪影響を及ぼし, 強い一方向偏差と限定的な意味理解を示すことがわかった。
論文 参考訳(メタデータ) (2024-03-27T08:38:49Z) - Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness
and Ethics [32.123919380959485]
MLLM(Multi-modal large language model)は、大規模言語モデル(LLM)に基づいて訓練される。
マルチモーダルなタスクでは優れているが、MLLMの純粋なNLP能力はしばしば過小評価され、テストされていない。
LLMをMLLMに移行するための一般的な戦略である視覚的インストラクションチューニングは、予期せぬ、興味深いことに、改善された真理性と倫理的整合性の両方を達成するのに役立ちます。
論文 参考訳(メタデータ) (2023-09-13T17:57:21Z) - A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。
本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文 参考訳(メタデータ) (2023-06-23T15:21:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。