論文の概要: CASA: Cross-Attention via Self-Attention for Efficient Vision-Language Fusion
- arxiv url: http://arxiv.org/abs/2512.19535v1
- Date: Mon, 22 Dec 2025 16:21:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.831858
- Title: CASA: Cross-Attention via Self-Attention for Efficient Vision-Language Fusion
- Title(参考訳): CASA:高能率ビジョン・ランゲージ核融合のための自己注意によるクロスアテンション
- Authors: Moritz Böhle, Amélie Royer, Juliette Marrie, Edouard Grave, Patrick Pérez,
- Abstract要約: ビジョン言語モデル(VLM)は、訓練済みのビジョンエンコーダから画像トークンを言語モデルのテキストストリームに挿入することで、一般的に訓練される。
これにより、テキストと画像の情報はモデル内で完全に参加できるが、高解像度の画像や長い会話、あるいはストリーミングビデオには、メモリと計算の両方で非常にコストがかかる。
CASA, Cross-Attention via Self-Attention, a simple and efficient paradigm that significantly reduce the gap with full token insert on common image understanding benchmarks。
- 参考スコア(独自算出の注目度): 30.426836071099885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) are commonly trained by inserting image tokens from a pretrained vision encoder into the textual stream of a language model. This allows text and image information to fully attend to one another within the model, but becomes extremely costly for high-resolution images, long conversations, or streaming videos, both in memory and compute. VLMs leveraging cross-attention are an efficient alternative to token insertion but exhibit a clear performance gap, in particular on tasks involving fine-grained visual details. We find that a key to improving such models is to also enable local text-to-text interaction in the dedicated cross-attention layers. Building on this, we propose CASA, Cross-Attention via Self-Attention, a simple and efficient paradigm which substantially reduces the gap with full token insertion on common image understanding benchmarks, while enjoying the same scalability as cross-attention models when applied to long-context multimodal tasks such as streaming video captioning. For samples and code, please see our project page at https://kyutai.org/casa .
- Abstract(参考訳): ビジョン言語モデル(VLM)は、訓練済みのビジョンエンコーダから画像トークンを言語モデルのテキストストリームに挿入することで、一般的に訓練される。
これにより、テキストと画像の情報はモデル内で完全に参加できるが、高解像度の画像や長い会話、あるいはストリーミングビデオには、メモリと計算の両方で非常にコストがかかる。
クロスアテンションを利用したVLMはトークン挿入の効率的な代替手段であるが、特にきめ細かい視覚的詳細を含むタスクにおいて、明確なパフォーマンスギャップを示す。
このようなモデルを改善するための鍵は、専用のクロスアテンション層におけるローカルテキストとテキストのインタラクションを可能にすることである。
そこで我々は,CASA(Cross-Attention, Cross-Attention via Self-Attention)を提案する。これは,ビデオキャプションなどの長文マルチモーダルタスクに適用した場合に,クロスアテンションモデルと同じスケーラビリティを享受しながら,共通画像理解ベンチマークにおけるトークン挿入によるギャップを大幅に低減する,シンプルで効率的なパラダイムである。
サンプルとコードについては、プロジェクトのページをhttps://kyutai.org/casa.com/でご覧ください。
関連論文リスト
- Attention Guided Alignment in Efficient Vision-Language Models [56.20286899428444]
VLM(Large Vision-Language Models)は、事前訓練された視覚エンコーダとLLM(Large Language Models)の効果的なマルチモーダルアライメントに依存している。
本稿では,効率的なVLMにおける注意パターンの包括的解析について述べる。
本稿では,Attention-Guided Efficient Vision-Language Models (AGE-VLM)を紹介する。
論文 参考訳(メタデータ) (2025-11-21T21:36:48Z) - The Narrow Gate: Localized Image-Text Communication in Native Multimodal Models [44.299894732492696]
視覚言語モデル(VLM)は、視覚情報がどのように処理され、テキスト領域に転送されるかに焦点を当て、画像理解タスクを処理する。
テキストと画像の両方を生成するためにマルチモーダルデータのスクラッチからトレーニングされたネイティブなマルチモーダルVLMと、事前訓練された大規模言語モデルから適応された、あるいはテキストのみを生成することができる非ネイティブなマルチモーダルVLMを比較し、情報フローの重要な違いを強調した。
単一トークンを非難することは画像理解性能を著しく低下させるのに対し、ターゲットレベルの介入は画像意味論や下流テキストをきめ細かな制御で確実に操ることを示す。
論文 参考訳(メタデータ) (2024-12-09T16:39:40Z) - Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。
MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。
本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文 参考訳(メタデータ) (2024-11-26T09:36:02Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - VLMAE: Vision-Language Masked Autoencoder [21.97700040013084]
視覚言語事前学習のための視覚言語マスク付きオートエンコーダフレームワーク(VLMAE)を提案する。
VLMAEは視覚的生成学習を採用しており、モデルが細粒度で偏りのない特徴を取得するのを容易にする。
論文 参考訳(メタデータ) (2022-08-19T14:39:18Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。