論文の概要: A Comprehensive Information-Decomposition Analysis of Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.29676v1
- Date: Tue, 31 Mar 2026 12:32:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.651639
- Title: A Comprehensive Information-Decomposition Analysis of Large Vision-Language Models
- Title(参考訳): 大規模視覚言語モデルの包括的情報分解分析
- Authors: Lixin Xiu, Xufang Luo, Hideki Nakayama,
- Abstract要約: 大規模視覚言語モデル(LVLM)は優れた性能を発揮するが、内部決定プロセスは不透明である。
本稿では,LVLMの「情報スペクトル」を定量的に測定するために,部分情報分解(PID)を用いた新しいフレームワークを提案する。
分析の結果,2つの重要な結果が明らかになった: (i)2つのタスク・レジーム (synergy-driven vs. knowledge-driven) と (ii) 2つの安定な家族レベルの戦略 (fusion-centric vs. language-centric) である。
- 参考スコア(独自算出の注目度): 24.18585407100395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision-language models (LVLMs) achieve impressive performance, yet their internal decision-making processes remain opaque, making it difficult to determine if the success stems from true multimodal fusion or from reliance on unimodal priors. To address this attribution gap, we introduce a novel framework using partial information decomposition (PID) to quantitatively measure the "information spectrum" of LVLMs -- decomposing a model's decision-relevant information into redundant, unique, and synergistic components. By adapting a scalable estimator to modern LVLM outputs, our model-agnostic pipeline profiles 26 LVLMs on four datasets across three dimensions -- breadth (cross-model & cross-task), depth (layer-wise information dynamics), and time (learning dynamics across training). Our analysis reveals two key results: (i) two task regimes (synergy-driven vs. knowledge-driven) and (ii) two stable, contrasting family-level strategies (fusion-centric vs. language-centric). We also uncover a consistent three-phase pattern in layer-wise processing and identify visual instruction tuning as the key stage where fusion is learned. Together, these contributions provide a quantitative lens beyond accuracy-only evaluation and offer insights for analyzing and designing the next generation of LVLMs. Code and data are available at https://github.com/RiiShin/pid-lvlm-analysis .
- Abstract(参考訳): 大規模な視覚言語モデル(LVLM)は印象的な性能を達成するが、その内部決定プロセスは不透明であり、成功が真のマルチモーダル融合によるものか、あるいは非モーダル先行への依存によるものなのかを判断することは困難である。
この属性ギャップに対処するために,LVLMの「情報スペクトル」を定量的に測定するために,部分情報分解(PID)を用いた新しいフレームワークを導入する。
スケーラブルな推定器を現代のLVLM出力に適用することにより、モデルに依存しないパイプラインプロファイルは、幅(クロスモデルとクロスタスク)、深さ(階層情報ダイナミクス)、時間(トレーニング間の学習ダイナミクス)の4つのデータセットに26のLVLMを配置します。
私たちの分析では2つの重要な結果が明らかになりました。
(i)2つのタスクレジーム(アレルギー駆動対知識駆動)及び
(二)家族レベルの戦略(融合中心対言語中心)が安定している。
また、レイヤワイズ処理において一貫した3相パターンを発見し、融合学習の鍵となる段階として視覚的命令チューニングを識別する。
これらのコントリビューションは、精度のみの評価以上の定量的なレンズを提供し、次世代のLVLMの分析と設計のための洞察を提供する。
コードとデータはhttps://github.com/RiiShin/pid-lvlm-analysis で公開されている。
関連論文リスト
- Decouple to Generalize: Context-First Self-Evolving Learning for Data-Scarce Vision-Language Reasoning [41.523848964102]
最近の視覚言語モデル(VLM)は強化学習(RL)を通して顕著な推論を実現する
RLは、経験の時代に連続的に進化する大規模視覚言語モデル(LVLM)を実現するための実現可能なソリューションを提供する。
合成データや自己回帰機構といった既存の戦略は、限られた分布とアライメントの困難に悩まされている。
問題解決ではなく,まず文脈から学習するようにモデルに誘導する,二重分離フレームワークDoGeを提案する。
論文 参考訳(メタデータ) (2025-12-07T13:17:31Z) - Multimodal Behavioral Patterns Analysis with Eye-Tracking and LLM-Based Reasoning [12.054910727620154]
視線追跡データは、ユーザの認知状態に関する貴重な洞察を明らかにするが、その構造化された非言語的な性質のために分析することは困難である。
本稿では、視線追跡信号からの認知パターン抽出を促進するために、マルチモーダルな人間-AI協調フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-24T09:49:53Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Why Do Open-Source LLMs Struggle with Data Analysis? A Systematic Empirical Study [55.09905978813599]
大規模言語モデル(LLM)は、データ分析タスクの自動化を約束する。
しかし、オープンソースモデルは、このような推論集約的なシナリオにおいて、重大な制限に直面している。
本研究では,オープンソースLLMのデータ解析機能を強化するための戦略について検討する。
論文 参考訳(メタデータ) (2025-06-24T17:04:23Z) - LLaVA-MORE: A Comparative Study of LLMs and Visual Backbones for Enhanced Visual Instruction Tuning [39.54891426369773]
モデルのサイズ、アーキテクチャ、パフォーマンスのトレードオフについては、まだ未検討のままです。
本稿では,近年の言語モデルと多様な視覚的バックボーンを統合したMLLMの新しいファミリーであるLLaVA-MOREを紹介する。
公平な比較を保証するため、すべてのアーキテクチャで一貫して適用される統一的なトレーニングプロトコルを使用します。
論文 参考訳(メタデータ) (2025-03-19T18:10:12Z) - Large Vision-Language Models as Emotion Recognizers in Context Awareness [14.85890824622433]
文脈対応感情認識(CAER)は、様々な文脈から感情を知覚する必要がある複雑で重要なタスクである。
以前のアプローチは主に、イメージから感情的な手がかりを抽出する洗練されたアーキテクチャを設計することに焦点を当てていた。
本稿では,LVLM(Large Vision-Language Models)を活用したCAERタスクの実現の可能性について,体系的に検討する。
論文 参考訳(メタデータ) (2024-07-16T01:28:06Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。