論文の概要: LangBridge: Interpreting Image as a Combination of Language Embeddings
- arxiv url: http://arxiv.org/abs/2503.19404v1
- Date: Tue, 25 Mar 2025 07:24:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:55:27.426186
- Title: LangBridge: Interpreting Image as a Combination of Language Embeddings
- Title(参考訳): LangBridge: イメージを言語埋め込みの組み合わせとして解釈する
- Authors: Jiaqi Liao, Yuwei Niu, Fanqing Meng, Hao Li, Changyao Tian, Yinuo Du, Yuwen Xiong, Dianqi Li, Xizhou Zhu, Li Yuan, Jifeng Dai, Yu Cheng,
- Abstract要約: LangBridgeは、ビジュアルトークンをテキスト埋め込みの線形結合に明示的にマッピングする新しいアダプタである。
以上の結果から,LLaMA3-8BやQwen2.5-14Bといった大型モデルに対して,Qwen2-0.5Bで事前訓練したLangBridgeを直接適用できることが示唆された。
- 参考スコア(独自算出の注目度): 46.24848870226332
- License:
- Abstract: Recent years have witnessed remarkable advances in Large Vision-Language Models (LVLMs), which have achieved human-level performance across various complex vision-language tasks. Following LLaVA's paradigm, mainstream LVLMs typically employ a shallow MLP for visual-language alignment through a two-stage training process: pretraining for cross-modal alignment followed by instruction tuning. While this approach has proven effective, the underlying mechanisms of how MLPs bridge the modality gap remain poorly understood. Although some research has explored how LLMs process transformed visual tokens, few studies have investigated the fundamental alignment mechanism. Furthermore, the MLP adapter requires retraining whenever switching LLM backbones. To address these limitations, we first investigate the working principles of MLP adapters and discover that they learn to project visual embeddings into subspaces spanned by corresponding text embeddings progressively. Based on this insight, we propose LangBridge, a novel adapter that explicitly maps visual tokens to linear combinations of LLM vocabulary embeddings. This innovative design enables pretraining-free adapter transfer across different LLMs while maintaining performance. Our experimental results demonstrate that a LangBridge adapter pre-trained on Qwen2-0.5B can be directly applied to larger models such as LLaMA3-8B or Qwen2.5-14B while maintaining competitive performance. Overall, LangBridge enables interpretable vision-language alignment by grounding visual representations in LLM vocab embedding, while its plug-and-play design ensures efficient reuse across multiple LLMs with nearly no performance degradation. See our project page at https://LangBridge.github.io/
- Abstract(参考訳): 近年のLVLM(Large Vision-Language Models)は、様々な複雑な視覚言語タスクで人間レベルのパフォーマンスを実現している。
LLaVAのパラダイムに従って、メインストリームのLVLMは2段階のトレーニングプロセスを通じて視覚言語アライメントに浅いMLPを使用する。
このアプローチは有効であることが証明されているが、MDPがモダリティギャップを橋渡しする方法の基本的なメカニズムは理解されていないままである。
LLMプロセスが視覚トークンをどのように変換するかを研究する研究もあるが、基本的なアライメント機構を研究する研究はほとんどない。
さらに、LPMバックボーンを切り替える際には、MLPアダプタを再トレーニングする必要がある。
これらの制約に対処するため、まずMLPアダプタの動作原理を考察し、対応するテキスト埋め込みによって拡張されたサブスペースに視覚的な埋め込みをプロジェクションすることを学ぶ。
この知見に基づいて,視覚トークンをLLM語彙埋め込みの線形結合に明示的にマッピングする新しいアダプタであるLangBridgeを提案する。
この革新的な設計は、性能を維持しながら異なるLLM間で事前訓練不要なアダプタ転送を可能にする。
実験結果から,LLaMA3-8BやQwen2.5-14Bといった大型モデルに対して,Qwen2-0.5Bで事前学習したLangBridgeアダプタを直接適用可能であることが示された。
全体として、LangBridgeは、視覚表現をLLMのボクタブに埋め込むことで、解釈可能な視覚言語アライメントを可能にする。
プロジェクトページはhttps://LangBridge.github.io/にある。
関連論文リスト
- HoVLE: Unleashing the Power of Monolithic Vision-Language Models with Holistic Vision-Language Embedding [91.0552157725366]
本稿では,HoVLEという新しい高性能モノリシックVLMを提案する。
視覚的入力とテキスト入力を共有空間に変換し、LLMはテキストと同じ方法で画像を処理できる。
実験の結果,HoVLEは様々なベンチマークにおいて,主要な構成モデルに近い性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-12-20T18:59:59Z) - OLA-VLM: Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation [95.78870389271832]
現代のMLLMを開発するための標準的な慣行は、視覚エンコーダ(s)からLLMに特徴を供給し、自然言語を監督する訓練を行うことである。
目的とする視覚表現の集合からLLMの隠れ表現に知識を抽出する最初の手法であるOLA-VLMを提案する。
OLA-VLMは様々なベンチマークで平均マージンを2.5%向上させ,CV-BenchのDepthタスクでは8.7%向上した。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - Liquid: Language Models are Scalable and Unified Multi-modal Generators [112.71734051183726]
Liquidは視覚的理解と生成をシームレスに統合する自動回帰生成パラダイムである。
従来のマルチモーダルな大言語モデル(MLLM)とは異なり、Liquidは単一の大言語モデルを用いてこの統合を実現する。
初めてLiquidは、ビジュアルタスクと言語タスクの統一トレーニングによって必然的にパフォーマンスが低下する、スケーリングの法則を明らかにした。
論文 参考訳(メタデータ) (2024-12-05T16:48:16Z) - SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs [40.74693126923826]
MLLM(Multimodal Large Language Models)は近年,知覚能力や推論能力が著しく向上している。
イメージレベルの監督を施したトレーニングアダプタは、しばしば重大なミスアライメントをもたらす。
本稿では,視覚言語による事前学習モデルを活用したトークンレベルのアライメント手法であるSupervised Embedding Alignment (SEA)を紹介する。
論文 参考訳(メタデータ) (2024-08-21T17:58:02Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large
Language Models [77.2078051555533]
大規模言語モデル(LLM)の有効なVL適応のための,新規で安価なソリューションを提案する。
画像エンコーダとLLMを接続するために大きなニューラルネットワークを使用する代わりに、MMAは軽量モジュール、すなわちアダプタを採用する。
MMAはまた、LLMがシングルモードとマルチモードの命令を自動シフトするのを助けるルーティングアルゴリズムも備えている。
論文 参考訳(メタデータ) (2023-05-24T11:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。