論文の概要: Language-Unlocked ViT (LUViT): Empowering Self-Supervised Vision Transformers with LLMs
- arxiv url: http://arxiv.org/abs/2507.00754v1
- Date: Tue, 01 Jul 2025 13:58:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.650103
- Title: Language-Unlocked ViT (LUViT): Empowering Self-Supervised Vision Transformers with LLMs
- Title(参考訳): Language-Unlocked ViT (LUViT): LLMを用いた自己監督型ビジョントランス
- Authors: Selim Kuzucu, Muhammad Ferjad Naeem, Anna Kukleva, Federico Tombari, Bernt Schiele,
- Abstract要約: ビジョントランスフォーマー(ViT)は、視覚のみのタスクのために、Large Language Model (LLM)ブロックと統合することができる。
直接核融合はしばしばLSMのポテンシャルを完全に活用できず、不安定な微調整に悩まされる。
LUViTは、このモダリティミスマッチを相乗的な事前訓練戦略を通じて橋渡しする。
- 参考スコア(独自算出の注目度): 89.76543013729594
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The integration of Large Language Model (LLMs) blocks with Vision Transformers (ViTs) holds immense promise for vision-only tasks by leveraging the rich semantic knowledge and reasoning capabilities of LLMs. However, a fundamental challenge lies in the inherent modality mismatch between text-centric pretraining of LLMs and vision-centric training of ViTs. Direct fusion often fails to fully exploit the LLM's potential and suffers from unstable finetuning. As a result, LLM blocks are kept frozen while only the vision components are learned. As a remedy to these challenges, we introduce Language-Unlocked Vision Transformers (LUViT), a novel approach that bridges this modality mismatch through a synergistic pre-training strategy. LUViT co-adapts a ViT backbone and an LLM fusion block by (1) employing Masked Auto-Encoding (MAE) to pre-train the ViT for richer visual representations, and (2) concurrently training Low-Rank Adaptation (LoRA) layers within the LLM block using the MAE objective. This joint optimization guides the ViT to produce LLM-aligned features and the LLM to effectively interpret visual information. We demonstrate through extensive experiments that LUViT significantly improves performance on various downstream vision tasks, showcasing a more effective and efficient pathway to harness LLM knowledge for visual understanding.
- Abstract(参考訳): 大規模言語モデル(LLM)ブロックと視覚変換器(ViT)の統合は、LLMの豊富な意味的知識と推論能力を活用することで、視覚のみのタスクを大いに約束する。
しかし、基本的な課題は、LLMのテキスト中心の事前学習とViTの視覚中心のトレーニングとの本質的なモダリティのミスマッチにある。
直接核融合はしばしばLSMのポテンシャルを完全に活用できず、不安定な微調整に悩まされる。
その結果、LLMブロックは凍結され、ビジョンコンポーネントのみが学習される。
これらの課題に対する対策として、我々はLanguage-Unlocked Vision Transformers (LUViT)を導入する。
LUViT は,(1) Masked Auto-Encoding (MAE) を用いて,よりリッチな視覚表現のために ViT を事前訓練し,(2) LLM ブロック内の低ランク適応 (LoRA) 層を MAE の目的を用いて同時に訓練することにより, ViT バックボーンと LLM 融合ブロックを併用する。
この共同最適化は、視覚情報を効果的に解釈するLLMアライン機能とLLMを生成するためにViTを誘導する。
我々は、LUViTが様々な下流視覚タスクの性能を著しく向上させる広範な実験を通して、LLM知識を視覚的理解に活用するためのより効率的かつ効率的な経路を示す。
関連論文リスト
- SAILViT: Towards Robust and Generalizable Visual Backbones for MLLMs via Gradual Feature Refinement [11.815369617016174]
視覚変換器(ViT)は,マルチモーダル大言語モデル(MLLM)の視覚的理解能力を確立する上で,基礎的バックボーンとして不可欠である
本稿では,MLLMの複雑なマルチモーダルインタラクションにおける性能ボトルネックを突破するための,段階的特徴学習型ViTを提案する。
論文 参考訳(メタデータ) (2025-07-02T12:17:23Z) - OLA-VLM: Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation [95.78870389271832]
現代のMLLMを開発するための標準的な慣行は、視覚エンコーダ(s)からLLMに特徴を供給し、自然言語を監督する訓練を行うことである。
目的とする視覚表現の集合からLLMの隠れ表現に知識を抽出する最初の手法であるOLA-VLMを提案する。
OLA-VLMは様々なベンチマークで平均マージンを2.5%向上させ,CV-BenchのDepthタスクでは8.7%向上した。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs [40.74693126923826]
MLLM(Multimodal Large Language Models)は近年,知覚能力や推論能力が著しく向上している。
イメージレベルの監督を施したトレーニングアダプタは、しばしば重大なミスアライメントをもたらす。
本稿では,視覚言語による事前学習モデルを活用したトークンレベルのアライメント手法であるSupervised Embedding Alignment (SEA)を紹介する。
論文 参考訳(メタデータ) (2024-08-21T17:58:02Z) - NavGPT-2: Unleashing Navigational Reasoning Capability for Large Vision-Language Models [30.685419129265252]
我々は、VLN特化モデルとLLMに基づくナビゲーションパラダイムの分割を橋渡しする。
我々は、効果的な行動予測とナビゲーション推論のために、LCMとナビゲーションポリシーネットワークを組み込む方法を利用する。
論文 参考訳(メタデータ) (2024-07-17T07:44:26Z) - LM4LV: A Frozen Large Language Model for Low-level Vision Tasks [25.3601306724822]
$textbfLM4LV$は、大規模な言語モデルで、マルチモーダルデータや事前データなしで、さまざまな低レベルの視覚タスクを解決できるフレームワークである。
これは低レベルのビジョンにおけるLLMの強い可能性を示し、MLLMと低レベルのビジョンタスクの間のギャップを埋める。
論文 参考訳(メタデータ) (2024-05-24T17:25:00Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - Mitigating Object Hallucination in Large Vision-Language Models via Image-Grounded Guidance [51.30560006045442]
Image-gRounded guIdaNcE (MARINE)は、トレーニングフリーかつAPIフリーのフレームワークである。
MARINEは、LVLMに画像グラウンドガイダンスを導入することにより、推論中の物体の幻覚を効果的かつ効率的に低減する。
私たちのフレームワークの柔軟性は、さらに複数のビジョンモデルの統合を可能にし、より信頼性が高く堅牢なオブジェクトレベルのガイダンスを可能にします。
論文 参考訳(メタデータ) (2024-02-13T18:59:05Z) - Towards Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage
and Sharing in LLMs [72.49064988035126]
マルチモーダル大規模言語モデル(MLLM)の強化を目的としたMKS2という手法を提案する。
具体的には、LLMの内部ブロックに組み込まれたコンポーネントであるModular Visual Memoryを導入し、オープンワールドの視覚情報を効率的に保存するように設計されている。
実験により,MKS2は物理的・常識的な知識を必要とする文脈において,LLMの推論能力を大幅に増強することが示された。
論文 参考訳(メタデータ) (2023-11-27T12:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。