論文の概要: Zero-Shot Vision Encoder Grafting via LLM Surrogates
- arxiv url: http://arxiv.org/abs/2505.22664v1
- Date: Wed, 28 May 2025 17:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.800524
- Title: Zero-Shot Vision Encoder Grafting via LLM Surrogates
- Title(参考訳): LLMサロゲートによるゼロショットビジョンエンコーダグラフト
- Authors: Kaiyu Yue, Vasu Singla, Menglin Jia, John Kirchenbauer, Rifaa Qadri, Zikui Cai, Abhinav Bhatele, Furong Huang, Tom Goldstein,
- Abstract要約: 視覚言語モデル(VLM)は通常、控えめな大きさの視覚エンコーダと大きな言語モデル(LLM)をペアリングする。
我々は,大対象LLMと同じ埋め込み空間と表現言語を共有する小さな「代理モデル」を構築した。
我々のサロゲートトレーニングアプローチは、Llama-70Bをデコーダとして使用する場合、全体のVLMトレーニングコストを45%削減する。
- 参考スコア(独自算出の注目度): 65.37227522413689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision language models (VLMs) typically pair a modestly sized vision encoder with a large language model (LLM), e.g., Llama-70B, making the decoder the primary computational burden during training. To reduce costs, a potential promising strategy is to first train the vision encoder using a small language model before transferring it to the large one. We construct small "surrogate models" that share the same embedding space and representation language as the large target LLM by directly inheriting its shallow layers. Vision encoders trained on the surrogate can then be directly transferred to the larger model, a process we call zero-shot grafting -- when plugged directly into the full-size target LLM, the grafted pair surpasses the encoder-surrogate pair and, on some benchmarks, even performs on par with full decoder training with the target LLM. Furthermore, our surrogate training approach reduces overall VLM training costs by ~45% when using Llama-70B as the decoder.
- Abstract(参考訳): 視覚言語モデル(VLM)は、通常、控えめな大きさの視覚エンコーダと大きな言語モデル(LLM)、例えばLlama-70Bとをペアリングする。
コスト削減のために、潜在的に有望な戦略は、まず視覚エンコーダを小さな言語モデルを使って訓練し、次にそれを大きな言語モデルに転送することである。
我々は,その浅い層を直接継承することにより,LLMと同一の埋め込み空間と表現言語を共有する,小さな「代理モデル」を構築した。
次に、サロゲートでトレーニングされたビジョンエンコーダは、ゼロショットグラフトと呼ばれるプロセスである、より大きなモデルに直接転送することができる。フルサイズのターゲットLDMに直接プラグインされると、移植されたペアはエンコーダ-サロゲートペアを超え、いくつかのベンチマークでは、ターゲットLDMとのフルデコーダトレーニングと同等に実行される。
さらに,このサロゲートトレーニング手法により,Llama-70Bをデコーダとして使用する場合,VLM全体のトレーニングコストを約45%削減する。
関連論文リスト
- EVEv2: Improved Baselines for Encoder-Free Vision-Language Models [72.07868838411474]
既存のエンコーダフリービジョン言語モデル(VLM)は、エンコーダベースモデルと性能ギャップを狭めている。
我々は,主流のエンコーダをベースとしたVLMと競合するエンコーダフリーVLMの効率的な戦略を開発する。
統一モデルにおいて、視覚と言語を適切に階層的に関連付けることで、モダリティ間の干渉を減少させることを示す。
論文 参考訳(メタデータ) (2025-02-10T18:59:58Z) - SOLO: A Single Transformer for Scalable Vision-Language Modeling [74.05173379908703]
我々はvisiOn-Language mOdelingのための単一変換器SOLOを提案する。
SOLOのような統一された単一トランスフォーマーアーキテクチャは、LVLMにおけるこれらのスケーラビリティ上の懸念に効果的に対処する。
本稿では,オープンソースの7B LVLMであるSOLOの開発のための,最初のオープンソーストレーニングレシピを紹介する。
論文 参考訳(メタデータ) (2024-07-08T22:40:15Z) - Unveiling Encoder-Free Vision-Language Models [62.52803514667452]
既存の視覚言語モデル (VLM) は主に視覚的特徴を抽出するために視覚エンコーダに依存しており、視覚言語タスクには大きな言語モデル (LLM) が続く。
エンコーダベースモデルとエンコーダフリーモデルとのギャップを橋渡しし、純粋なVLMに対するシンプルで効果的なトレーニングレシピを示す。
EVEはエンコーダなしの視覚言語モデルで、効率的にトレーニングと転送ができる。
論文 参考訳(メタデータ) (2024-06-17T17:59:44Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。