論文の概要: Test-Time Warmup for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2509.10641v1
- Date: Fri, 12 Sep 2025 18:58:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.705905
- Title: Test-Time Warmup for Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルに対するテスト時間ワームアップ
- Authors: Nikita Rajaneesh, Thomas Zollo, Richard Zemel,
- Abstract要約: 本稿では,弱い教師付き補助タスクからのデータを活用することで,テストインスタンス毎のMLLMを適応させるテスト時間ワームアップ手法を提案する。
MMMUでは4.03%,VQA-Radでは5.28%,Llama-Vision-Instructモデルでは1.63%であった。
- 参考スコア(独自算出の注目度): 2.526814143603023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) hold great promise for advanced reasoning at the intersection of text and images, yet they have not fully realized this potential. MLLMs typically integrate an LLM, a vision encoder, and a connector that maps the vision encoder's embeddings into the LLM's text embedding space. Although each component is pretrained on massive datasets with billions of samples, the entire multimodal model is typically trained on only thousands (or a few million) samples, which can result in weak performance on complex reasoning tasks. To address these shortcomings, instead of relying on extensive labeled datasets for fine-tuning, we propose a Test-Time Warmup method that adapts the MLLM per test instance by leveraging data from weakly supervised auxiliary tasks. With our approach, we observe a relative performance improvement of 4.03% on MMMU, 5.28% on VQA-Rad, and 1.63% on GQA on the Llama-Vision-Instruct model. Our method demonstrates that 'warming up' before inference can enhance MLLMs' robustness across diverse reasoning tasks.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、テキストと画像の交点における高度な推論を大いに約束するが、この可能性を完全には実現していない。
MLLMは通常、LCM、ビジョンエンコーダ、コネクタを統合し、ビジョンエンコーダの埋め込みをLCMのテキスト埋め込み空間にマッピングする。
各コンポーネントは数十億のサンプルを持つ大規模なデータセットで事前トレーニングされるが、マルチモーダルモデル全体が数千(あるいは数百万)のサンプルでトレーニングされるのが一般的であり、複雑な推論タスクのパフォーマンスが低下する可能性がある。
これらの欠点に対処するため,テストインスタンス毎にMLLMを適応させるテスト時間ウォームアップ手法を提案する。
提案手法では,MMMUが4.03%,VQA-Radが5.28%,GQAが1.63%,Llama-Vision-Instructモデルが1.63%であった。
提案手法は,推論前の'ウォーミングアップ'により,多種多様な推論タスクにおけるMLLMの堅牢性が向上することを示す。
関連論文リスト
- LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [72.68665884790002]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
本稿では,教師モデルの頑健な表現を視覚的,言語的両面で伝達するために,MDist(Multimodal Distillation)を導入する。
また,提案した蒸留戦略の可能性をフル活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - MM-R$^3$: On (In-)Consistency of Vision-Language Models (VLMs) [26.475993408532304]
本稿では,3つのタスク(質問文の表現,画像の復元,コンテキスト推論)に基づいて,SoTA視覚言語モデルの性能を解析する。
我々の分析では、一貫性が必ずしも精度と一致していないことを示し、高い精度のモデルが必ずしも一致しているとは限らないことを示し、その逆も示している。
本稿では,命令間の不整合を最小限に抑えるために訓練されたアダプタモジュールの形式で,シンプルながら効果的な緩和戦略を提案する。
論文 参考訳(メタデータ) (2024-10-07T06:36:55Z) - Rethinking VLMs and LLMs for Image Classification [6.550471260627169]
大きな言語モデル(LLM)は、新しい機能を実現するために、Visual Language Models(VLM)と統合されつつある。
オブジェクト認識やシーン認識では,LLMを使わないVLMの方が,VLMよりも優れた性能が得られることを示す。
本稿では,視覚的タスクをタスクに適したモデルに効率的にルーティングする,比較的小さなLCMを含む軽量な修正法を提案する。
論文 参考訳(メタデータ) (2024-10-03T23:40:21Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - How to Bridge the Gap between Modalities: Survey on Multimodal Large Language Model [12.358079352117699]
テキストや画像,音声などを含むマルチモーダルデータの処理にLLMを統合したマルチモーダル大規模言語モデル(MLLM)について検討する。
MLLMはマルチモーダルデータのセマンティックギャップに対処する上で、誤った出力につながる可能性がある。
効果的なモダリティアライメントの実装は、LLMが環境問題に対処し、アクセシビリティを高めるのに役立つ。
論文 参考訳(メタデータ) (2023-11-10T09:51:24Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。