論文の概要: Vision Function Layer in Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2509.24791v1
- Date: Mon, 29 Sep 2025 13:45:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.01889
- Title: Vision Function Layer in Multimodal LLMs
- Title(参考訳): マルチモーダルLDMにおける視覚機能層
- Authors: Cheng Shi, Yizhou Yu, Sibei Yang,
- Abstract要約: 本研究では,マルチモーダル大言語モデル(MLLM)において,視覚関連関数デコーディングが異なるデコーダ層に分散していることを明らかにする。
Visual Token Swappingは、ターゲットのKVキャッシュエントリを変更して、デコード中の層固有の機能を正確に解明する。
本研究は、MLLM視覚処理をより深く理解し、より効率的で解釈可能で堅牢なモデルの作成を促進する。
- 参考スコア(独自算出の注目度): 70.42157905484765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study identifies that visual-related functional decoding is distributed across different decoder layers in Multimodal Large Language Models (MLLMs). Typically, each function, such as counting, grounding, or OCR recognition, narrows down to two or three layers, which we define as Vision Function Layers (VFL). Additionally, the depth and its order of different VFLs exhibits a consistent pattern across different MLLMs, which is well-aligned with human behaviors (e.g., recognition occurs first, followed by counting, and then grounding). These findings are derived from Visual Token Swapping, our novel analytical framework that modifies targeted KV cache entries to precisely elucidate layer-specific functions during decoding. Furthermore, these insights offer substantial utility in tailoring MLLMs for real-world downstream applications. For instance, when LoRA training is selectively applied to VFLs whose functions align with the training data, VFL-LoRA not only outperform full-LoRA but also prevent out-of-domain function forgetting. Moreover, by analyzing the performance differential on training data when particular VFLs are ablated, VFL-select automatically classifies data by function, enabling highly efficient data selection to directly bolster corresponding capabilities. Consequently, VFL-select surpasses human experts in data selection, and achieves 98% of full-data performance with only 20% of the original dataset. This study delivers deeper comprehension of MLLM visual processing, fostering the creation of more efficient, interpretable, and robust models.
- Abstract(参考訳): 本研究では,マルチモーダル大規模言語モデル(MLLM)において,視覚関連関数デコーディングが異なるデコーダ層に分散していることを明らかにする。
通常、カウント、グラウンド、OCR認識などの各関数は、視覚関数層(VFL)と定義する2つか3つの層に絞られる。
さらに、異なるVFLの深さとその順序は、異なるMLLMにまたがる一貫したパターンを示し、それは人間の行動とよく整合している(例えば、認識が最初に起こり、次にカウントされ、接地される)。
これらの知見は、ターゲットKVキャッシュエントリをデコード中の層固有の機能を正確に解明する、新しい分析フレームワークであるVisual Token Swappingから得られたものである。
さらに、これらの洞察は、現実世界の下流アプリケーション向けにMLLMをカスタマイズする上で、かなりの有用性を提供する。
例えば、トレーニングデータと関数が一致したVFLにLoRAトレーニングを選択的に適用する場合、VFL-LoRAはフルLoRAを上回るだけでなく、ドメイン外関数の忘れを防止する。
さらに、特定のVFLが短縮された場合のトレーニングデータの性能差を解析することにより、VFL選択が自動的に関数ごとにデータを分類し、高効率なデータ選択により、対応する機能を直接強化する。
その結果、VFL-selectは人間のデータ選択の専門家を超え、元のデータセットのわずか20%で、完全なデータパフォーマンスの98%を達成した。
本研究は、MLLM視覚処理をより深く理解し、より効率的で解釈可能で堅牢なモデルの作成を促進する。
関連論文リスト
- Dynamic Embedding of Hierarchical Visual Features for Efficient Vision-Language Fine-Tuning [5.85033069870214]
動的埋め込みと階層型視覚特徴の融合に基づく効率的な視覚言語微調整法を提案する。
少数のパラメータのみを微調整することで、DEHVFはクロスモーダル情報の正確なアライメントと補完を実現する。
論文 参考訳(メタデータ) (2025-08-25T03:57:46Z) - LLaVA-UHD v2: an MLLM Integrating High-Resolution Semantic Pyramid via Hierarchical Window Transformer [110.39467860530819]
視覚変換器 (ViT) は視覚符号化のための多モード大言語モデル (MLLM) に広く用いられている。
我々は、よく設計された視覚言語プロジェクタを導入することで、高度な知覚能力を持つMLLMであるLLaVA-UHD v2を提案する。
ハイウィン変換器は、構築した高精細なセマンティックピラミッドを組み込むことにより、MLLMの多様なマルチモーダルな視覚的粒度を捕捉する能力を高める。
論文 参考訳(メタデータ) (2024-12-18T14:07:46Z) - Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation [109.5893580175657]
近年,MLLMの開発における標準的な実践は,視覚エンコーダの機能をLLMに供給し,自然言語による指導を施すことである。
このアプローチは、しばしばモデルが言語理解に傾き、データに存在するリッチな視覚知覚信号を損なう。
本稿では,視覚知識をエキスパートビジョンエンコーダからLLMの隠れ表現に注入する最初のアプローチであるVisPer-LMを提案する。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - 60 Data Points are Sufficient to Fine-Tune LLMs for Question-Answering [50.12622877002846]
大規模言語モデル(LLM)は、大量のデータセットの事前トレーニングを通じて、広範囲な世界の知識を符号化する。
我々は,事前学習したLLMが記憶する知識の量に基づいて,教師付き微調整(SFT)データを分類した。
実験の結果,SFTの段階では60個のデータポイントが事前学習中に符号化された知識を活性化することができ,LLMがQAタスクを実行できることがわかった。
論文 参考訳(メタデータ) (2024-09-24T07:38:38Z) - Bridge the Modality and Capability Gaps in Vision-Language Model Selection [62.26769826687365]
視覚言語モデル(VLM)は、画像とテキストのカテゴリ名とのペアリングによるゼロショット画像分類において優れている。
VLMリソースをより再利用するために、VLM Zooから適切な事前学習VLMを選択するという有望な戦略が提案されている。
本稿では,この言語のみのVLM選択において,VLMの能力を評価する上での2つの課題について分析する。
本稿では,2つのギャップの負の影響を軽減するために,gApブリッジを用いたVLM選択を提案する。
論文 参考訳(メタデータ) (2024-03-20T17:54:58Z) - VertiBench: Advancing Feature Distribution Diversity in Vertical
Federated Learning Benchmarks [31.08004805380727]
本稿では,VFLの性能に影響を及ぼす2つの要因について紹介する。
また、画像イメージのVFLシナリオの欠点に対応するために、実際のVFLデータセットも導入する。
論文 参考訳(メタデータ) (2023-07-05T05:55:08Z) - BlindFL: Vertical Federated Machine Learning without Peeking into Your
Data [20.048695060411774]
垂直連合学習(VFL)は、さまざまな参加者のプライベートデータに基づいてMLモデルを構築する場合を記述している。
本稿では,VFLトレーニングと推論のための新しいフレームワークであるBlindFLを紹介する。
BlindFLは、堅牢なプライバシー保証を達成しつつ、多様なデータセットやモデルを効率的にサポートする。
論文 参考訳(メタデータ) (2022-06-16T07:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。