論文の概要: Decoupling Vision and Language: Codebook Anchored Visual Adaptation
- arxiv url: http://arxiv.org/abs/2602.19449v1
- Date: Mon, 23 Feb 2026 02:39:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.651903
- Title: Decoupling Vision and Language: Codebook Anchored Visual Adaptation
- Title(参考訳): ビジョンと言語を分離する: Codebook Anchored Visual Adaptation
- Authors: Jason Wu, Tianchen Zhao, Chang Liu, Jiarui Cai, Zheng Zhang, Zhuowei Li, Aaditya Singh, Xiang Xu, Mani Srivastava, Jonathan Wu,
- Abstract要約: LVLM(Large Vision-Language Models)は、視覚エンコーダを使用して画像を下流の推論のための表現に変換する。
既存のアダプティブメソッドは、プロジェクタチューニングやその他のパラメータ効率の更新を通じて、エンコーダと言語モデルの間の連続的な機能インターフェースを変更する。
CRAFTは,視覚表現を安定なトークン空間に固定する離散コードブックを用いて,エンコーダを微調整する軽量な手法である。
- 参考スコア(独自算出の注目度): 20.393987361723724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) use their vision encoders to translate images into representations for downstream reasoning, but the encoders often underperform in domain-specific visual tasks such as medical image diagnosis or fine-grained classification, where representation errors can cascade through the language model, leading to incorrect responses. Existing adaptation methods modify the continuous feature interface between encoder and language model through projector tuning or other parameter-efficient updates, which still couples the two components and requires re-alignment whenever the encoder changes. We introduce CRAFT (Codebook RegulAted Fine-Tuning), a lightweight method that fine-tunes the encoder using a discrete codebook that anchors visual representations to a stable token space, achieving domain adaptation without modifying other parts of the model. This decoupled design allows the adapted encoder to seamlessly boost the performance of LVLMs with different language architectures, as long as they share the same codebook. Empirically, CRAFT achieves an average gain of 13.51% across 10 domain-specific benchmarks such as VQARAD and PlantVillage, while preserving the LLM's linguistic capabilities and outperforming peer methods that operate on continuous tokens.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、視覚エンコーダを使用して画像を下流の推論のための表現に変換するが、そのエンコーダは医療画像診断や詳細な分類といったドメイン固有の視覚タスクでは、表現エラーが言語モデルを通してカスケードされ、誤った応答をもたらすことが多い。
既存のアダプティブメソッドは、プロジェクタチューニングや他のパラメータ効率の更新を通じて、エンコーダと言語モデルの間の継続的な機能インターフェースを変更する。
CRAFT(Codebook RegulAted Fine-Tuning)は、離散コードブックを用いてエンコーダを微調整し、視覚表現を安定なトークン空間に固定し、モデルの他の部分を変更することなくドメイン適応を実現する軽量な手法である。
この分離された設計により、同じコードブックを共有する限り、適応エンコーダは異なる言語アーキテクチャでLVLMの性能をシームレスに向上させることができる。
実証的に、CRAFTは、VQARADやPlantVillageといった10のドメイン固有のベンチマークで平均13.51%向上し、LLMの言語能力を維持し、連続トークンで操作するピアメソッドよりも優れています。
関連論文リスト
- Video TokenCom: Textual Intent-Guided Multi-Rate Video Token Communications with UEP-Based Adaptive Source-Channel Coding [24.169863403324314]
Token Communication(TokenCom)は、大規模AIモデル(LAM)とマルチモーダル大規模言語モデル(MLLM)の成功に動機付けられた、新しいパラダイムである。
本稿では,テキスト指向型マルチレートビデオ通信のための新しいVideo TokenComフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-02T23:36:38Z) - VL-JEPA: Joint Embedding Predictive Architecture for Vision-language [54.86811250366009]
我々は,JEPA(Joint Embedding Predictive Architecture)上に構築された視覚言語モデルであるVL-JEPAを紹介する。
抽象表現空間で学習することにより、そのモデルは、表面レベルの言語的多様性を抽象化しながら、タスク関連セマンティクスに焦点を当てる。
推測時には、VL-JEPA予測埋め込みをテキストに変換する必要のある場合にのみ、軽量テキストデコーダが呼び出される。
論文 参考訳(メタデータ) (2025-12-11T18:59:22Z) - METEOR: Multi-Encoder Collaborative Token Pruning for Efficient Vision Language Models [92.37117312251755]
プログレッシブプルーニングフレームワークであるMulti-Encoder collaboraTivE tOken pRuning (METEOR)を提案する。
マルチビジョン符号化では,各エンコーダ内の冗長トークンをランク誘導型協調トークン代入戦略により破棄する。
マルチビジョン融合では、異なるエンコーダの視覚的特徴を組み合わせながら、コラボレーティブプルーニングによるクロスエンコーダ冗長性を低減させる。
論文 参考訳(メタデータ) (2025-07-28T13:50:53Z) - FOCUS: Unified Vision-Language Modeling for Interactive Editing Driven by Referential Segmentation [55.01077993490845]
最近のLVLM(Large Vision Language Models)は、視覚的理解と生成的モデリングを統一する有望な能力を示している。
本稿では,分割認識と制御可能なオブジェクト中心生成をエンドツーエンドフレームワークに統合した統合LVLMであるFOCUSを紹介する。
論文 参考訳(メタデータ) (2025-06-20T07:46:40Z) - Advanced Sign Language Video Generation with Compressed and Quantized Multi-Condition Tokenization [20.063863466319326]
SignViPは、複数のきめ細かい条件を組み込んだ新しいフレームワークである。
SignViPは、ビデオ品質の時間的コヒーレンスやセマンティクスの忠実さなど、メトリクス間の最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-19T02:56:06Z) - Kernel-based Unsupervised Embedding Alignment for Enhanced Visual Representation in Vision-language Models [18.02840698188587]
本稿では,CLIPの視覚表現とDINOv2の表現を一致させるカーネルベースの新しい手法を提案する。
画像のみのアライメント微調整は、ゼロショット物体認識、きめ細かい空間的推論において著しく改善されている。
論文 参考訳(メタデータ) (2025-06-03T07:44:43Z) - MoSE: Hierarchical Self-Distillation Enhances Early Layer Embeddings [2.1262605464247812]
自己蒸留(Self-Distillation)は、様々なコード理解タスクにおける正確性のための推論コストの取引方法である。
我々のアーキテクチャは、特定のエンコーダ層を出口ヘッドとしてターゲットとして、テキスト・ツー・コード検索とコード・ツー・コード検索を改善している。
我々は、テキストからコードへのベンチマークを言語間のコード-コードペアで拡張するコード翻訳によって作成された新しいデータセットをリリースする。
論文 参考訳(メタデータ) (2025-03-04T21:08:17Z) - Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。
ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文 参考訳(メタデータ) (2024-10-18T03:34:32Z) - Do Vision and Language Encoders Represent the World Similarly? [22.70701869402434]
CLIPのようなアライメントされたテキストイメージエンコーダは、視覚言語タスクのデファクトモデルになっている。
非整列および整列エンコーダの表現空間は意味論的に類似していることがわかった。
CLIPのようなアライメントエンコーダに統計的に類似性がない場合、アライメントされていないエンコーダのマッチングがトレーニングなしで存在することを示す。
論文 参考訳(メタデータ) (2024-01-10T15:51:39Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - Adversarial Neural Networks for Error Correcting Codes [76.70040964453638]
機械学習(ML)モデルの性能と適用性を高めるための一般的なフレームワークを紹介する。
本稿では,MLデコーダと競合する識別器ネットワークを組み合わせることを提案する。
我々のフレームワークはゲーム理論であり、GAN(Generative Adversarial Network)によって動機付けられている。
論文 参考訳(メタデータ) (2021-12-21T19:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。