Fugu-MT 論文翻訳(概要): Beyond Text-Dominance: Understanding Modality Preference of Omni-modal Large Language Models

論文の概要: Beyond Text-Dominance: Understanding Modality Preference of Omni-modal Large Language Models

arxiv url: http://arxiv.org/abs/2604.16902v2
Date: Wed, 22 Apr 2026 05:33:29 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-23 15:36:10.34458
Title: Beyond Text-Dominance: Understanding Modality Preference of Omni-modal Large Language Models
Title（参考訳）: テキスト・ドミナンスを超えて:Omni-Modal Large Language Modelのモダリティ・プライオリティを理解する
Authors: Xinru Yan, Boxi Cao, Yaojie Lu, Hongyu Lin, Weixiang Zhou, Le Sun, Xianpei Han,
Abstract要約: 我々は、Omni-Modal Large Language Models (OLLM) のモダリティ嗜好を定量化する。従来のVLMの「テキスト・マディナンス」とは異なり、ほとんどのOLLMは視覚的嗜好が顕著である。私たちの仕事は、機械的な理解と、より信頼できるOLLMを構築するための実践的なツールの両方を提供します。
参考スコア（独自算出の注目度）: 73.89069781682032
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Native Omni-modal Large Language Models (OLLMs) have shifted from pipeline architectures to unified representation spaces. However, this native integration gives rise to a critical yet underexplored phenomenon: modality preference. To bridge this gap, we first systematically quantify modality preference of OLLMs using a newly-curated conflict-based benchmark and the modality selection rate metric. Our evaluation of ten representative OLLMs reveals a notable paradigm shift: unlike the ``text-dominance'' of traditional VLMs, most OLLMs exhibit a pronounced visual preference. To further understand the underlying mechanism, we conduct layer-wise probing and demonstrate that such modality preference is not static but emerges progressively in the mid-to-late layers. Building upon these insights, we leverage these internal signals to diagnose cross-modal hallucinations, achieving competitive performance across three downstream multi-modal benchmarks without task-specific data. Our work provides both a mechanistic understanding and a practical tool for building more trustworthy OLLMs. Our code and related resources are publicly available at: https://github.com/icip-cas/OmniPreference
Abstract（参考訳）: Omni-Modal Large Language Models (OLLM) はパイプラインアーキテクチャから統一表現空間へ移行した。しかし、このネイティブな統合は、批判的だが未発見の現象、すなわちモダリティの選好を引き起こす。このギャップを埋めるために、我々はまず、新しく計算されたコンフリクトベースベンチマークとモダリティ選択率メトリックを用いて、OLLMのモダリティ選好を体系的に定量化する。従来の VLM の `text-dominance' とは異なり,ほとんどの OLLM では視覚的嗜好が顕著である。基礎となるメカニズムをさらに理解するため、我々は層ワイドな探索を行い、そのようなモダリティの選好が静的ではなく、中間層から後期層に徐々に現れることを実証する。これらの知見に基づいて、これらの内部信号を利用して、クロスモーダル幻覚を診断し、3つの下流マルチモーダルベンチマークの競合性能をタスク固有のデータなしで達成する。私たちの仕事は、機械的な理解と、より信頼できるOLLMを構築するための実践的なツールの両方を提供します。私たちのコードと関連するリソースは、https://github.com/icip-cas/OmniPreferenceで公開されています。

関連論文リスト

Topology-Aware Layer Pruning for Large Vision-Language Models [21.06771347736129]
LVLM(Large Vision-Language Models)は、計算とメモリのコストを大幅に削減する。既存のレイヤプルーニングメソッドは、通常、ローカルな類似度メトリクスや静的プロキシ信号に依存する。 LVLMのためのトポロジ対応層プルーニングフレームワークを提案する。
論文参考訳（メタデータ） (2026-04-14T14:36:53Z)
PlaM: Training-Free Plateau-Guided Model Merging for Better Visual Grounding in MLLMs [59.78917775399492]
マルチモーダル命令の微調整はパラドックス的にこのテキストの推論能力を低下させる。この劣化を緩和するためのトレーニング不要のフレームワークを提案する。
論文参考訳（メタデータ） (2026-01-12T15:27:51Z)
Some Modalities are More Equal Than Others: Decoding and Architecting Multimodal Integration in MLLMs [5.380090638488105]
MMA-Benchは、特定のモダリティへの依存を調査するビデオとタスクで構成されている。現在のMLLMは、音声と視覚のペアと単純な誤解を招くテキストが混在している。本稿では,特定のモダリティ手法を優先し,活用するか,無視するかをモデルに教えるためのモダリティアライメントチューニング戦略を提案する。
論文参考訳（メタデータ） (2025-11-28T01:21:29Z)
Scaling Language-Centric Omnimodal Representation Learning [26.999264997449586]
大規模言語モデル (MLLM) を利用したマルチモーダル埋め込み手法は, 比較学習 (CL) によって微調整され, 有望な結果が得られた。この研究は、MLLMに基づくアプローチの重要な利点は、生成前訓練中に達成される暗黙の相互モーダルアライメントに起因していると主張している。我々はLCO-Embと呼ばれる言語中心のOmnimodal Embeddingフレームワークを提案する。
論文参考訳（メタデータ） (2025-10-13T17:53:52Z)
Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文参考訳（メタデータ） (2025-09-26T14:39:13Z)
Keeping Yourself is Important in Downstream Tuning Multimodal Large Language Model [63.14883657299359]
MLLM(Multi-modal Large Language Models)は、視覚的および言語的推論を統合して、画像キャプションや視覚的質問応答といった複雑なタスクに対処する。ダウンストリームタスクのためのMLLMのチューニングには,2つの重要な課題がある。タスク-Expert – 事前トレーニングとターゲットデータセット間の分散シフトによってターゲットのパフォーマンスが制限される。
論文参考訳（メタデータ） (2025-03-06T15:29:13Z)
OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論する能力を評価するために設計された新しいベンチマークである。評価の結果,オープンソース OLM は三モーダル文脈における命令追従や推論に重大な制限があることが明らかとなった。我々は,OLM性能を向上させるため,より堅牢な3モーダル統合技術とトレーニング戦略の開発を提唱する。
論文参考訳（メタデータ） (2024-09-23T17:59:05Z)
CRaSh: Clustering, Removing, and Sharing Enhance Fine-tuning without Full Large Language Model [22.870512676002463]
本稿では,集中型LCMと下流エミュレータ間でトランスフォーマブロックを転送する代表的手法であるOffsite-Tuning(OFT)に焦点を当てる。これらの観測にインスパイアされたCRaShは、LCMから改善エミュレータを導出するトレーニングフリー戦略であるClustering、Removing、Sharingを含む。以上の結果から,CRaShとOFTの有効性が明らかとなった。
論文参考訳（メタデータ） (2023-10-24T03:08:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。