論文の概要: Decoupling Vision and Language: Codebook Anchored Visual Adaptation
- arxiv url: http://arxiv.org/abs/2602.19449v1
- Date: Mon, 23 Feb 2026 02:39:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.651903
- Title: Decoupling Vision and Language: Codebook Anchored Visual Adaptation
- Title(参考訳): ビジョンと言語を分離する: Codebook Anchored Visual Adaptation
- Authors: Jason Wu, Tianchen Zhao, Chang Liu, Jiarui Cai, Zheng Zhang, Zhuowei Li, Aaditya Singh, Xiang Xu, Mani Srivastava, Jonathan Wu,
- Abstract要約: LVLM(Large Vision-Language Models)は、視覚エンコーダを使用して画像を下流の推論のための表現に変換する。
既存のアダプティブメソッドは、プロジェクタチューニングやその他のパラメータ効率の更新を通じて、エンコーダと言語モデルの間の連続的な機能インターフェースを変更する。
CRAFTは,視覚表現を安定なトークン空間に固定する離散コードブックを用いて,エンコーダを微調整する軽量な手法である。
- 参考スコア(独自算出の注目度): 20.393987361723724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) use their vision encoders to translate images into representations for downstream reasoning, but the encoders often underperform in domain-specific visual tasks such as medical image diagnosis or fine-grained classification, where representation errors can cascade through the language model, leading to incorrect responses. Existing adaptation methods modify the continuous feature interface between encoder and language model through projector tuning or other parameter-efficient updates, which still couples the two components and requires re-alignment whenever the encoder changes. We introduce CRAFT (Codebook RegulAted Fine-Tuning), a lightweight method that fine-tunes the encoder using a discrete codebook that anchors visual representations to a stable token space, achieving domain adaptation without modifying other parts of the model. This decoupled design allows the adapted encoder to seamlessly boost the performance of LVLMs with different language architectures, as long as they share the same codebook. Empirically, CRAFT achieves an average gain of 13.51% across 10 domain-specific benchmarks such as VQARAD and PlantVillage, while preserving the LLM's linguistic capabilities and outperforming peer methods that operate on continuous tokens.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、視覚エンコーダを使用して画像を下流の推論のための表現に変換するが、そのエンコーダは医療画像診断や詳細な分類といったドメイン固有の視覚タスクでは、表現エラーが言語モデルを通してカスケードされ、誤った応答をもたらすことが多い。
既存のアダプティブメソッドは、プロジェクタチューニングや他のパラメータ効率の更新を通じて、エンコーダと言語モデルの間の継続的な機能インターフェースを変更する。
CRAFT(Codebook RegulAted Fine-Tuning)は、離散コードブックを用いてエンコーダを微調整し、視覚表現を安定なトークン空間に固定し、モデルの他の部分を変更することなくドメイン適応を実現する軽量な手法である。
この分離された設計により、同じコードブックを共有する限り、適応エンコーダは異なる言語アーキテクチャでLVLMの性能をシームレスに向上させることができる。
実証的に、CRAFTは、VQARADやPlantVillageといった10のドメイン固有のベンチマークで平均13.51%向上し、LLMの言語能力を維持し、連続トークンで操作するピアメソッドよりも優れています。
関連論文リスト
- METEOR: Multi-Encoder Collaborative Token Pruning for Efficient Vision Language Models [92.37117312251755]
プログレッシブプルーニングフレームワークであるMulti-Encoder collaboraTivE tOken pRuning (METEOR)を提案する。
マルチビジョン符号化では,各エンコーダ内の冗長トークンをランク誘導型協調トークン代入戦略により破棄する。
マルチビジョン融合では、異なるエンコーダの視覚的特徴を組み合わせながら、コラボレーティブプルーニングによるクロスエンコーダ冗長性を低減させる。
論文 参考訳(メタデータ) (2025-07-28T13:50:53Z) - FOCUS: Unified Vision-Language Modeling for Interactive Editing Driven by Referential Segmentation [55.01077993490845]
最近のLVLM(Large Vision Language Models)は、視覚的理解と生成的モデリングを統一する有望な能力を示している。
本稿では,分割認識と制御可能なオブジェクト中心生成をエンドツーエンドフレームワークに統合した統合LVLMであるFOCUSを紹介する。
論文 参考訳(メタデータ) (2025-06-20T07:46:40Z) - Advanced Sign Language Video Generation with Compressed and Quantized Multi-Condition Tokenization [20.063863466319326]
SignViPは、複数のきめ細かい条件を組み込んだ新しいフレームワークである。
SignViPは、ビデオ品質の時間的コヒーレンスやセマンティクスの忠実さなど、メトリクス間の最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-19T02:56:06Z) - Kernel-based Unsupervised Embedding Alignment for Enhanced Visual Representation in Vision-language Models [18.02840698188587]
本稿では,CLIPの視覚表現とDINOv2の表現を一致させるカーネルベースの新しい手法を提案する。
画像のみのアライメント微調整は、ゼロショット物体認識、きめ細かい空間的推論において著しく改善されている。
論文 参考訳(メタデータ) (2025-06-03T07:44:43Z) - MoSE: Hierarchical Self-Distillation Enhances Early Layer Embeddings [2.1262605464247812]
自己蒸留(Self-Distillation)は、様々なコード理解タスクにおける正確性のための推論コストの取引方法である。
我々のアーキテクチャは、特定のエンコーダ層を出口ヘッドとしてターゲットとして、テキスト・ツー・コード検索とコード・ツー・コード検索を改善している。
我々は、テキストからコードへのベンチマークを言語間のコード-コードペアで拡張するコード翻訳によって作成された新しいデータセットをリリースする。
論文 参考訳(メタデータ) (2025-03-04T21:08:17Z) - Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。
ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文 参考訳(メタデータ) (2024-10-18T03:34:32Z) - Do Vision and Language Encoders Represent the World Similarly? [22.70701869402434]
CLIPのようなアライメントされたテキストイメージエンコーダは、視覚言語タスクのデファクトモデルになっている。
非整列および整列エンコーダの表現空間は意味論的に類似していることがわかった。
CLIPのようなアライメントエンコーダに統計的に類似性がない場合、アライメントされていないエンコーダのマッチングがトレーニングなしで存在することを示す。
論文 参考訳(メタデータ) (2024-01-10T15:51:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。