論文の概要: Stateful Cross-layer Vision Modulation
- arxiv url: http://arxiv.org/abs/2603.00655v1
- Date: Sat, 28 Feb 2026 13:57:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.311751
- Title: Stateful Cross-layer Vision Modulation
- Title(参考訳): ステートフル・クロスレイヤ・ビジョン・モジュレーション
- Authors: Ying Liu, Yudong Han, Kean Shi, Liyuan Pan,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は、視覚表現を強化するために多層視覚特徴融合を広く採用している。
既存のアプローチは通常、表現形成プロセス自体に介入することなく、視覚符号化後の静的連結や重み付けアグリゲーションを実行する。
本稿では,これらの制約に対処する多層メモリ変調ビジョンフレームワーク(SCVM)を提案する。
- 参考スコア(独自算出の注目度): 19.730096071316876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent multimodal large language models (MLLMs) widely adopt multi-layer visual feature fusion to enhance visual representation. However, existing approaches typically perform static concatenation or weighted aggregation after visual encoding, without intervening in the representation formation process itself. As a result, fine-grained details from early layers may be progressively suppressed during hierarchical abstraction. Moreover, directly introducing shallow-layer features into the language model often leads to semantic distribution mismatch with the visual feature space that the LLM's cross-attention layers were pretrained on, which typically requires additional adaptation or fine-tuning of the LLM. To address these limitations, we revisit visual representation learning from the perspective of representation evolution control and propose a cross-layer memory-modulated vision framework(SCVM). Specifically, we introduce a recursively updated cross-layer memory state inside the vision encoder to model long-range inter-layer dependencies. We further design a layer-wise feedback modulation mechanism that refreshes token representations at each layer based on the accumulated memory, thereby structurally regulating the representation evolution trajectory. In addition, we incorporate an auxiliary semantic alignment objective that explicitly supervises the final memory state, encouraging progressive compression and reinforcement of task-relevant information. Experimental results on multiple visual question answering and hallucination evaluation benchmarks demonstrate that SCVM achieves consistent performance improvements without expanding visual tokens, introducing additional vision encoders, or modifying or fine-tuning the language model.
- Abstract(参考訳): 近年のマルチモーダル大言語モデル(MLLM)は、視覚表現を高めるために多層視覚特徴融合を広く採用している。
しかし、既存のアプローチは、通常、表現形成プロセス自体に介入することなく、視覚符号化後の静的連結や重み付けアグリゲーションを実行する。
その結果、階層的な抽象化の間に、初期層からのきめ細かい詳細が徐々に抑制される可能性がある。
さらに、言語モデルに浅層機能を直接導入すると、LLMのクロスアテンション層が事前訓練された視覚的特徴空間とセマンティックな分布のミスマッチが生じ、通常、LLMのさらなる適応や微調整が必要になる。
これらの制約に対処するため、表現進化制御の観点から視覚表現学習を再考し、層間メモリ変調ビジョンフレームワーク(SCVM)を提案する。
具体的には、視覚エンコーダの内部に再帰的に更新された層間メモリ状態を導入し、層間依存関係をモデル化する。
さらに、蓄積したメモリに基づいて各レイヤのトークン表現をリフレッシュし、表現の進化軌道を構造的に制御するレイヤワイズフィードバック変調機構を設計する。
さらに、最終記憶状態を明示的に監視し、プログレッシブな圧縮とタスク関連情報の強化を促進する補助的セマンティックアライメントの目的を組み込んだ。
複数の視覚的質問応答と幻覚評価ベンチマークの実験結果は、SCVMが視覚トークンを拡張したり、視覚エンコーダを追加したり、言語モデルを変更したり、微調整したりすることなく、一貫したパフォーマンス向上を実現していることを示している。
関連論文リスト
- Look Carefully: Adaptive Visual Reinforcements in Multimodal Large Language Models for Hallucination Mitigation [51.743225614196774]
マルチモーダル大言語モデル (MLLM) は視覚言語推論において顕著な進歩を遂げている。
彼らは幻覚に弱いままであり、そこで生成されたコンテンツは視覚的証拠から逸脱する。
近年の視覚強調法では、復号時に視覚トークンを補強することでこの問題に対処しようとしている。
本稿では,MLLMのトレーニングフリーフレームワークであるAdaptive Visual Reinforcement (AIR)を提案する。
論文 参考訳(メタデータ) (2026-02-27T14:18:51Z) - Unleashing the Intrinsic Visual Representation Capability of Multimodal Large Language Models [58.91911788912665]
より識別的な視覚表現の学習において,MLLMの学習を容易にする新しい学習フレームワークであるLaVerを提案する。
本手法はMLLMに対して直接視覚的アクティベーションを提供し,視覚的アサインメントが増大し,視覚情報の利用が向上したことを示す。
論文 参考訳(メタデータ) (2025-12-06T04:20:13Z) - ParaUni: Enhance Generation in Unified Multimodal Model with Reinforcement-driven Hierarchical Parallel Information Interaction [55.21514454560188]
統一マルチモーダルモデルでは、視覚の粒度モデル(VLM)と拡散モデルを組み合わせることで、視覚生成を著しく改善する。
既存の手法は、表現の差が大きいため、十分な相互作用と柔軟な実装のバランスをとるのに苦労する。
我々は,textbfParallel方式でVLMの変形層から特徴を抽出し,包括的情報インタラクションを実現するtextbfParaUniを提案する。
論文 参考訳(メタデータ) (2025-12-05T04:41:57Z) - Multi-Modal Interpretability for Enhanced Localization in Vision-Language Models [2.984679075401059]
本稿では,視覚言語モデルの解釈性向上を目的としたマルチモーダル説明型学習フレームワークを提案する。
我々のアプローチは、複数の意味レベルで特徴を処理し、異なる粒度における画像領域間の関係をキャプチャする。
意味関係情報を勾配に基づく属性マップに組み込むことで、MMELはより焦点を絞った、文脈を意識した視覚化を実現できることを示す。
論文 参考訳(メタデータ) (2025-09-17T18:18:59Z) - Dynamic Embedding of Hierarchical Visual Features for Efficient Vision-Language Fine-Tuning [5.85033069870214]
動的埋め込みと階層型視覚特徴の融合に基づく効率的な視覚言語微調整法を提案する。
少数のパラメータのみを微調整することで、DEHVFはクロスモーダル情報の正確なアライメントと補完を実現する。
論文 参考訳(メタデータ) (2025-08-25T03:57:46Z) - Cross-Layer Discrete Concept Discovery for Interpreting Language Models [13.842670153893977]
クロス層VQ-VAEは、ベクトル量子化を使用して層間の表現をマッピングするフレームワークである。
本手法は,量子化中のトップk温度に基づくサンプリングとEMAコードブック更新を一意に組み合わせる。
論文 参考訳(メタデータ) (2025-06-24T22:43:36Z) - FOCUS: Unified Vision-Language Modeling for Interactive Editing Driven by Referential Segmentation [55.01077993490845]
最近のLVLM(Large Vision Language Models)は、視覚的理解と生成的モデリングを統一する有望な能力を示している。
本稿では,分割認識と制御可能なオブジェクト中心生成をエンドツーエンドフレームワークに統合した統合LVLMであるFOCUSを紹介する。
論文 参考訳(メタデータ) (2025-06-20T07:46:40Z) - How Visual Representations Map to Language Feature Space in Multimodal LLMs [9.880509106657009]
視覚言語モデル(VLM)が視覚および言語表現のアライメントを実現するメカニズムについて検討する。
言語モデルを凍結させることにより、視覚データに適応することなく、元の言語表現を確実に維持する。
視覚表現が言語特徴表現と徐々に整合し、中から後期の層に収束する階層的進行を明らかにする。
論文 参考訳(メタデータ) (2025-06-13T17:34:05Z) - Lifting the Veil on Visual Information Flow in MLLMs: Unlocking Pathways to Faster Inference [28.24397677839652]
マルチモーダル大規模言語モデル(MLLM)は、事前訓練された視覚エンコーダの視覚的特徴を大規模言語モデルに統合することにより、視覚言語タスクの性能を向上させる。
MLLMがどのように処理し、どのように視覚情報を利用するかは、まだ不明である。
階層型モダリティ・アウェア・プルーニング(HiMAP, Hierarchical Modality-Aware Pruning)を提案する。
論文 参考訳(メタデータ) (2025-03-17T12:31:23Z) - Mitigating Visual Knowledge Forgetting in MLLM Instruction-tuning via Modality-decoupled Gradient Descent [72.1517476116743]
近年のMLLMは、大規模マルチモーダルデータセットで事前訓練された後に、視覚的理解と推論能力の発達を見せている。
直接微調整や連続学習といった既存のアプローチでは、この問題に明示的に対処することができない。
本稿では,視覚的表現を忘れることの劣化を定量化するために,効果的なランクを活用する新しい視点を提案する。
視覚表現の効果的なランクを維持するために勾配更新を規制するMDGD法を提案する。
論文 参考訳(メタデータ) (2025-02-17T12:26:34Z) - Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。