論文の概要: Back to the Barn with LLAMAs: Evolving Pretrained LLM Backbones in Finetuning Vision Language Models
- arxiv url: http://arxiv.org/abs/2604.10985v1
- Date: Mon, 13 Apr 2026 04:44:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.324203
- Title: Back to the Barn with LLAMAs: Evolving Pretrained LLM Backbones in Finetuning Vision Language Models
- Title(参考訳): LLAMAで納屋に戻る - 微調整視覚言語モデルにおける事前訓練されたLLMバックボーンの展開
- Authors: Sameera Horawalavithana, Lauren Phillips, Ian Stewart, Sai Munikoti, Karl Pazdernik,
- Abstract要約: VLM(Vision-Language Models)は、強力な事前学習型大規模言語モデル(LLM)をコア推論バックボーンとして活用することで、急速に進歩している。
本研究は,LLMバックボーンの変化が下流VLMタスクのパフォーマンスに与える影響について,制御的,系統的に検討した。
- 参考スコア(独自算出の注目度): 0.8318686824572802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) have rapidly advanced by leveraging powerful pre-trained Large Language Models (LLMs) as core reasoning backbones. As new and more capable LLMs emerge with improved reasoning, instruction-following, and generalization, there is a pressing need to efficiently update existing VLMs to incorporate these advancements. However, the integration of new LLMs into VLMs, particularly how the evolving LLMs contribute to multimodal reasoning, alignment, and task-specific performance remains underexplored. Addressing this gap is important for VLM development, given the rapid evolution of pretrained LLM backbones. This study presents a controlled and systematic investigation of how changes in the pretrained LLM backbone affect downstream VLM task performance. By having the vision encoder, training data, and post-training algorithm remain same across LLAMA-1, LLAMA-2, and LLAMA-3 based VLMs, we find that newer LLM backbones do not always lead to better VLMs, but the performance depends on the downstream VLM task. For example, in visual question and answering tasks, newer LLM backbones tend to solve different questions rather than just more questions, and our analysis shows this is driven by differences in how the models process information, including better calibrated confidence and more stable internal representations. We also find that some VLM capabilities appear only in the newest LLM generation, while tasks that depend mainly on visual understanding see little benefit from a newer LLM backbone.
- Abstract(参考訳): VLM(Vision-Language Models)は、強力な事前学習型大規模言語モデル(LLM)をコア推論バックボーンとして活用することにより、急速に進歩している。
推論、命令追従、一般化の改善により、新しいより有能なLDMが出現するにつれて、これらの進歩を取り入れるために既存のVLMを効率的に更新する必要がある。
しかし、新しいLLMのVLMへの統合、特に進化するLLMがマルチモーダル推論、アライメント、タスク固有のパフォーマンスにどのように貢献するかは未定である。
このギャップに対処することは、予め訓練されたLLMバックボーンの急速な進化を考えると、VLM開発にとって重要である。
本研究は,LLMバックボーンの変化が下流VLMタスクのパフォーマンスに与える影響について,制御的,系統的に検討した。
LLAMA-1, LLAMA-2, LLAMA-3 ベースの VLM では, ビジョンエンコーダ, トレーニングデータ, ポストトレーニングアルゴリズムが同一であることから, より新しい LLM バックボーンが常により良い VLM に繋がるわけではないが, 性能は下流 VLM タスクに依存することがわかった。
例えば、視覚的な質問や回答タスクでは、より新しいLCMバックボーンは、単に質問よりも異なる質問を解く傾向があり、我々の分析は、モデルがどのように情報を処理するかの違いによって、よりキャリブレーションされた信頼度やより安定した内部表現が引き起こされることを示している。
また、視覚的理解に大きく依存するタスクは、より新しいLMバックボーンによるメリットはほとんどない。
関連論文リスト
- RL makes MLLMs see better than SFT [96.508432109136]
マルチモーダル言語モデル(MLLM)の視覚エンコーダの批判的かつ未探索な解析を行う。
その結果、MLLMの学習後戦略(SFTまたはRL)は、下流タスクにおいて異なる結果をもたらすだけでなく、MLLMの根底にある視覚的表現を根本的に再認識することを示した。
次に、私たちの知見をMLLMのための強力なビジョンエンコーダを構築するための簡単なレシピ、Preference-Instructed Vision OpTimization (PIVOT) に再構成する。
論文 参考訳(メタデータ) (2025-10-18T03:37:17Z) - LLM4VV: Evaluating Cutting-Edge LLMs for Generation and Evaluation of Directive-Based Parallel Programming Model Compiler Tests [7.6818904666624395]
本稿では,コンパイラテストの生成にLLMを用いたデュアルLLMシステムと実験について述べる。
LLMは、品質の高いコンパイラテストを生成し、それらを自動的に検証する有望な可能性を持っていることは明らかである。
論文 参考訳(メタデータ) (2025-07-29T02:34:28Z) - Elevating Visual Perception in Multimodal LLMs with Visual Embedding Distillation [109.5893580175657]
近年,MLLMの開発における標準的な実践は,視覚エンコーダの機能をLLMに供給し,自然言語による指導を施すことである。
このアプローチは、しばしばモデルが言語理解に傾き、データに存在するリッチな視覚知覚信号を損なう。
本稿では,視覚知識をエキスパートビジョンエンコーダからLLMの隠れ表現に注入する最初のアプローチであるVisPer-LMを提案する。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - Rethinking VLMs and LLMs for Image Classification [6.550471260627169]
大きな言語モデル(LLM)は、新しい機能を実現するために、Visual Language Models(VLM)と統合されつつある。
オブジェクト認識やシーン認識では,LLMを使わないVLMの方が,VLMよりも優れた性能が得られることを示す。
本稿では,視覚的タスクをタスクに適したモデルに効率的にルーティングする,比較的小さなLCMを含む軽量な修正法を提案する。
論文 参考訳(メタデータ) (2024-10-03T23:40:21Z) - A Survey on Self-Evolution of Large Language Models [116.54238664264928]
大規模言語モデル(LLM)は、様々な分野やインテリジェントエージェントアプリケーションにおいて大きく進歩している。
この問題に対処するために、LLMが自律的に獲得し、洗練し、モデル自身によって生成された経験から学ぶことができる自己進化的アプローチが急速に成長している。
論文 参考訳(メタデータ) (2024-04-22T17:43:23Z) - EnvGen: Generating and Adapting Environments via LLMs for Training Embodied Agents [65.38474102119181]
トレーニング環境を適応的に作成するフレームワークであるEnvGenを提案する。
我々は、LLM生成環境とLLM生成環境を混合した小さなRLエージェントを訓練する。
我々は、EnvGenで訓練された小さなRLエージェントが、GPT-4エージェントを含むSOTAメソッドより優れており、長い水平タスクをかなり高速に学習できることを発見した。
論文 参考訳(メタデータ) (2024-03-18T17:51:16Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - A Survey of Large Language Models for Code: Evolution, Benchmarking, and
Future Trends [30.774685501251817]
一般的な大規模言語モデル(LLM)は、ソフトウェア工学におけるコード生成のようなタスクにおいて大きな可能性を証明している。
コードLLMのかなりの部分は、モデルファインチューニングを通じて一般的なLLMから派生している。
現在、Code LLMとそのパフォーマンスに関する体系的な調査が欠如している。
論文 参考訳(メタデータ) (2023-11-17T07:55:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。