論文の概要: Dynamic Embedding of Hierarchical Visual Features for Efficient Vision-Language Fine-Tuning
- arxiv url: http://arxiv.org/abs/2508.17638v1
- Date: Mon, 25 Aug 2025 03:57:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.622669
- Title: Dynamic Embedding of Hierarchical Visual Features for Efficient Vision-Language Fine-Tuning
- Title(参考訳): 高能率ビジョンランゲージファインチューニングのための階層型視覚特徴の動的埋め込み
- Authors: Xinyu Wei, Guoli Yang, Jialu Zhou, Mingyue Yang, Leqian Li, Kedi Zhang, Chunping Qiu,
- Abstract要約: 動的埋め込みと階層型視覚特徴の融合に基づく効率的な視覚言語微調整法を提案する。
少数のパラメータのみを微調整することで、DEHVFはクロスモーダル情報の正確なアライメントと補完を実現する。
- 参考スコア(独自算出の注目度): 5.85033069870214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) commonly follow a paradigm that projects visual features and then concatenates them with text tokens to form a unified sequence input for Large Language Models (LLMs). However, this paradigm leads to a significant increase in the length of the input sequence, resulting in substantial computational overhead. Existing methods attempt to fuse visual information into the intermediate layers of LLMs, which alleviate the sequence length issue but often neglect the hierarchical semantic representations within the model and the fine-grained visual information available in the shallower visual encoding layers. To address this limitation, we propose DEHVF, an efficient vision-language fine-tuning method based on dynamic embedding and fusion of hierarchical visual features. Its core lies in leveraging the inherent hierarchical representation characteristics of visual encoders and language models. Through a lightweight hierarchical visual fuser, it dynamically selects and fuses hierarchical features corresponding to semantic granularity based on the internal representations of each layer in LLMs. The fused layer-related visual features are then projected and aligned before being directly embedded into the Feed-Forward Network (FFN) of the corresponding layer in LLMs. This approach not only avoids sequence expansion but also dynamically fuses multi-layer visual information. By fine-tuning only a small number of parameters, DEHVF achieves precise alignment and complementarity of cross-modal information at the same semantic granularity. We conducted experiments across various VL benchmarks, including visual question answering on ScienceQA and image captioning on COCO Captions. The results demonstrate that DEHVF achieves higher accuracy than existing parameter-efficient fine-tuning (PEFT) baselines while maintaining efficient training and inference.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は一般的に、視覚的特徴を投影し、テキストトークンと結合してLLM(Large Language Models)の統一シーケンス入力を形成するパラダイムに従っている。
しかし、このパラダイムは入力シーケンスの長さを大幅に増加させ、計算オーバーヘッドを大幅に増加させる。
既存の手法では、LLMの中間層に視覚情報を融合し、シーケンス長の問題を軽減するが、モデル内の階層的意味表現や、より浅い視覚的エンコーディング層で利用可能なきめ細かい視覚情報を無視することが多い。
この制限に対処するために、動的埋め込みと階層的視覚特徴の融合に基づく効率的な視覚言語微調整法であるDHVFを提案する。
その中核は、ビジュアルエンコーダと言語モデルの本質的な階層的表現特性を活用することである。
軽量な階層型視覚フェーザを通じて、LLM内の各レイヤの内部表現に基づいて、意味的な粒度に対応する階層的特徴を動的に選択、融合する。
融合したレイヤ関連視覚機能は、LSMの対応するレイヤのFeed-Forward Network(FFN)に直接埋め込まれる前に投影され、アライメントされる。
このアプローチはシーケンス拡張を回避するだけでなく、動的に多層視覚情報を融合する。
少数のパラメータだけを微調整することで、DEHVFは同じ意味的粒度でクロスモーダル情報の正確なアライメントと相補性を達成する。
我々は,ScienceQAの視覚的質問応答やCOCOキャプションのイメージキャプションなど,様々なVLベンチマークを用いて実験を行った。
その結果,DHVFは,既存のパラメータ効率細調整(PEFT)ベースラインよりも高い精度を達成し,効率的なトレーニングと推論を維持した。
関連論文リスト
- Lifting the Veil on Visual Information Flow in MLLMs: Unlocking Pathways to Faster Inference [28.24397677839652]
マルチモーダル大規模言語モデル(MLLM)は、事前訓練された視覚エンコーダの視覚的特徴を大規模言語モデルに統合することにより、視覚言語タスクの性能を向上させる。
MLLMがどのように処理し、どのように視覚情報を利用するかは、まだ不明である。
階層型モダリティ・アウェア・プルーニング(HiMAP, Hierarchical Modality-Aware Pruning)を提案する。
論文 参考訳(メタデータ) (2025-03-17T12:31:23Z) - Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - MMFuser: Multimodal Multi-Layer Feature Fuser for Fine-Grained Vision-Language Understanding [39.68348330596116]
視覚変換器(ViTs)の深部・浅部機能を効率的に統合する,シンプルで効果的な多層機能フェーザであるモデル名を提案する。
具体的には、クエリとしてセマンティックに整合した深い機能を活用して、浅い機能から欠落した詳細を動的に抽出する。
modelnameachieveは、ビジュアル表現とベンチマークのパフォーマンスを大幅に改善する。
論文 参考訳(メタデータ) (2024-10-15T17:55:22Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z) - From Redundancy to Relevance: Information Flow in LVLMs Across Reasoning Tasks [33.476693301050275]
我々は,視覚的質問応答と画像キャプションタスクのために,様々なLVLMの切り抜き戦略を用いて実験を行った。
視覚的表現の貢献の観点から情報の流れを探索することにより、浅い層に収束する傾向にあるが、より深い層に分散する傾向があることを観察する。
論文 参考訳(メタデータ) (2024-06-04T13:52:54Z) - Bridging Vision and Language Spaces with Assignment Prediction [47.04855334955006]
VLAPは、事前訓練された視覚モデルと大規模言語モデル(LLM)を橋渡しする新しいアプローチである
2つのモダリティ埋め込み空間を橋渡しするために、確立された単語埋め込みを利用する。
VLAPは、以前の線形変換ベースのアプローチよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-04-15T10:04:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。