論文の概要: Visual Instruction Bottleneck Tuning
- arxiv url: http://arxiv.org/abs/2505.13946v1
- Date: Tue, 20 May 2025 05:24:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.761975
- Title: Visual Instruction Bottleneck Tuning
- Title(参考訳): 視覚インストラクションボトルネックチューニング
- Authors: Changdae Oh, Jiatong Li, Shawn Im, Yixuan Li,
- Abstract要約: マルチモーダルな大言語モデル(MLLM)は、分散シフトの下で不慣れなクエリに遭遇した場合、性能が低下する。
MLLMの一般化を改善する既存の方法は、通常、より多くの命令データまたはより大きな高度なモデルアーキテクチャを必要とする。
我々は、表現学習の観点から、分布シフト下でのMLLMの堅牢性を高めるための代替アプローチを採っている。
- 参考スコア(独自算出の注目度): 24.864232100295133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite widespread adoption, multimodal large language models (MLLMs) suffer performance degradation when encountering unfamiliar queries under distribution shifts. Existing methods to improve MLLM generalization typically require either more instruction data or larger advanced model architectures, both of which incur non-trivial human labor or computational costs. In this work, we take an alternative approach to enhance the robustness of MLLMs under distribution shifts, from a representation learning perspective. Inspired by the information bottleneck (IB) principle, we derive a variational lower bound of the IB for MLLMs and devise a practical implementation, Visual Instruction Bottleneck Tuning (Vittle). We then provide a theoretical justification of Vittle by revealing its connection to an information-theoretic robustness metric of MLLM. Empirical validation of three MLLMs on open-ended and closed-form question answering and object hallucination detection tasks over 45 datasets, including 30 shift scenarios, demonstrates that Vittle consistently improves the MLLM's robustness under shifts by pursuing the learning of a minimal sufficient representation.
- Abstract(参考訳): 広く採用されているにもかかわらず、マルチモーダルな大規模言語モデル(MLLM)は、分散シフトの下で不慣れなクエリに遭遇した場合、性能が低下する。
MLLMの一般化を改善する既存の方法は、通常、より多くの命令データまたはより大きな高度なモデルアーキテクチャを必要とする。
本研究では,表現学習の観点から,分散シフト下でのMLLMの堅牢性を高めるための代替手法を提案する。
情報ボトルネック(IB)の原理にインスパイアされた我々は、MLLMのためのIBの変動的下限を導出し、実用的な実装であるVisual Instruction Bottleneck Tuning(Vittle)を考案した。
次に, MLLMの情報理論的ロバスト性指標との関係を明らかにすることによって, ヴィトルの理論的正当性を示す。
オープンエンドおよびクローズドフォームの質問応答における3つのMLLMの実証的検証と、30のシフトシナリオを含む45のデータセット上のオブジェクト幻覚検出タスクは、Vittleが最小限の表現の学習を追求することで、シフト下のMLLMの堅牢性を一貫して改善することを実証している。
関連論文リスト
- Textual Steering Vectors Can Improve Visual Understanding in Multimodal Large Language Models [42.449334670206824]
テキスト由来のステアリングは多様なMLLMアーキテクチャや視覚タスクのマルチモーダル精度を一貫して向上させる。
平均シフトはCV-Bench上の空間関係の精度を+7.3%、精度を+3.3%向上させる。
その結果、テキストステアリングベクトルは、最小限のデータ収集と計算オーバーヘッドでMLLMのグラウンド化を強化するための強力で効率的なメカニズムとして強調された。
論文 参考訳(メタデータ) (2025-05-20T08:23:08Z) - Orchestrate Multimodal Data with Batch Post-Balancing to Accelerate Multimodal Large Language Model Training [12.911726316306755]
モータリティ構成不整合によるMLLMトレーニングにおける非効率性を軽減するためのフレームワークであるOrchMLLMを紹介する。
Batch Post-Balancing DispatcherとMLLM Global Orchestratorは、シーケンシャルデータにおけるミニバッチの不均衡を取り除くために使用される。
OrchMLLMは、84B MLLMを2560ドルのH100 GPUで3つのモダリティでトレーニングする際に、MFU(Model FLOPs utilization)を41.6%で達成し、Megatron-LMを最大3.1倍のスループットで上回っている。
論文 参考訳(メタデータ) (2025-03-31T08:24:23Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。