論文の概要: Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2501.08443v2
- Date: Thu, 16 Jan 2025 12:06:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:08:04.831376
- Title: Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models
- Title(参考訳): 大規模視覚言語モデルにおける多層視覚特徴の指導誘導融合
- Authors: Xu Li, Yi Zheng, Haotian Chen, Xiaolei Chen, Yuxuan Liang, Chenghang Lai, Bin Li, Xiangyang Xue,
- Abstract要約: 18のベンチマークと6つのタスクカテゴリにわたる異なるエンコーダ層からの視覚的特徴の寄与について検討する。
テキスト命令に基づいて動的に多層機能を統合する命令誘導型視覚アグリゲータを提案する。
この研究は、大規模視覚言語モデルにおける階層的視覚的特徴の適応的利用に関する貴重な洞察を提供する。
- 参考スコア(独自算出の注目度): 50.98559225639266
- License:
- Abstract: Large Vision-Language Models (LVLMs) have achieved significant success in multimodal tasks by combining pre-trained vision encoders and large language models. However, current LVLMs mainly rely on features from the final layers of the vision encoder, neglecting complementary information in shallower layers. While recent methods have explored multi-layer features, they are often task-agnostic. We investigate the contributions of visual features from different encoder layers across 18 benchmarks and 6 task categories. Our results show that multi-layer features provide complementary strengths with varying task dependencies, and uniform fusion performs suboptimally. Based on these findings, we propose an instruction-guided vision aggregator that dynamically integrates multi-layer features based on textual instructions, without increasing the number of visual tokens. Extensive evaluations show superior performance, and analysis reveals the dominance of mid-to-high-level features in semantic tasks and the critical role of low-level features in fine-grained perception. This work provides valuable insights into the adaptive use of hierarchical visual features in LVLMs, advancing more flexible multimodal systems.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、事前訓練された視覚エンコーダと大規模言語モデルを組み合わせることで、マルチモーダルタスクにおいて大きな成功を収めた。
しかし、現在のLVLMは主に視覚エンコーダの最終層の特徴に依存しており、浅い層では補完的な情報を無視している。
最近の手法では多層構造を探索しているが、それらはしばしばタスクに依存しない。
18のベンチマークと6つのタスクカテゴリにわたる異なるエンコーダ層からの視覚的特徴の寄与について検討する。
以上の結果から,多層構造はタスク依存の相補的な長所を提供し,一様核融合は準最適に機能することがわかった。
これらの知見に基づいて,視覚トークンの数を増やすことなく,テキスト命令に基づいて動的に多層機能を統合する命令誘導型視覚アグリゲータを提案する。
広範囲な評価は優れた性能を示し、分析は意味的タスクにおける中~高レベルの特徴の優位性と、きめ細かい知覚における低レベルの特徴の重要な役割を明らかにしている。
この研究は、LVLMにおける階層的視覚的特徴の適応的利用に関する貴重な洞察を与え、より柔軟なマルチモーダルシステムを前進させる。
関連論文リスト
- Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment [58.94611347128066]
タスク選好最適化(TPO)は、典型的なきめ細かい視覚的タスクから派生した微分可能なタスク選好を利用する新しい手法である。
トレーニング中にリッチなビジュアルラベルを活用することで、TPOはMLLMのマルチモーダル能力とタスク固有のパフォーマンスを大幅に向上させる。
VideoChatとLLaVAによるこのアプローチのインスタンス化は、ベースラインモデルと比較して、総合的に14.6%のマルチモーダル性能の向上を示している。
論文 参考訳(メタデータ) (2024-12-26T18:56:05Z) - VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。
VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。
様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2024-10-21T18:10:26Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - From CLIP to DINO: Visual Encoders Shout in Multi-modal Large Language
Models [36.41816380074965]
大規模言語モデル(MLLM)における視覚エンコーダの有効性について検討する。
以上の結果から,CLIPの浅層構造は,接地や領域理解といったきめ細かいタスクに特に有利であることがわかった。
我々は,CLIPとDINOをMergingと統合したシンプルな機能統合戦略であるCOMMを提案する。
論文 参考訳(メタデータ) (2023-10-13T02:41:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。