論文の概要: D-Attn: Decomposed Attention for Large Vision-and-Language Models
- arxiv url: http://arxiv.org/abs/2502.01906v2
- Date: Fri, 15 Aug 2025 20:46:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:09.794014
- Title: D-Attn: Decomposed Attention for Large Vision-and-Language Models
- Title(参考訳): D-Attn:大規模視覚・言語モデルに対する分解注意
- Authors: Chia-Wen Kuo, Sijie Zhu, Fan Chen, Xiaohui Shen, Longyin Wen,
- Abstract要約: 大規模視覚・言語モデル(LVLM)のためのより柔軟な注意アーキテクチャである分解注意アーキテクチャ(D-Attn)を提案する。
D-AttnはLVLMの1次元因果自認を視覚的・視覚的・視覚的・テキスト的・テキスト的に分解する。
実験と解析によりD-Attnの有効性が検証され、複数の画像ベンチマークで大幅な改善が示された。
- 参考スコア(独自算出の注目度): 29.611769371733672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision-and-language models (LVLMs) have traditionally integrated visual and textual tokens by concatenating them into a single homogeneous input for large language models (LLMs), thereby maximally preserving the pre-trained language capabilities. However, this constrained architecture for visual and textual tokens restricts the design space for processing visual tokens, potentially leading to suboptimal performance and efficiency. In this paper, we propose Decomposed Attention (D-Attn), a more flexible attention architecture for LVLMs, which enables modification of visual token operations without affecting textual-to-textual attention. D-Attn decomposes the 1-D causal self-attention of LVLMs into visual-to-visual, textual-to-visual, and textual-to-textual attentions, and the visual and textual output tokens from the decomposed attentions are merged with a carefully derived weighting strategy, namely $\alpha$-weighting. Taking advantage of the flexibility, we are able to introduce two critical improvements in visual token processing while maintaining the capacity of pre-trained LLMs: 1) We rectify the biased positional encoding in textual-to-visual attention to boost visual understanding performance. 2) We diagonalize visual-to-visual attention to reduce computation complexity from $O(|V|^2)$ to $O(|V|)$ for $|V|$ visual tokens without compromising performance. Extensive experiments and analysis validate the effectiveness of D-Attn, demonstrating significant improvements on multiple image benchmarks while significantly reducing computational costs (\eg, $5\times$ faster). Code will be available at https://github.com/bytedance/DecomposedAttention.
- Abstract(参考訳): 大型視覚言語モデル (LVLM) は、従来の視覚的およびテキスト的トークンを大型言語モデル (LLM) の単一均一な入力に結合することにより、事前訓練された言語能力を最大限に保存することで、視覚的およびテキスト的トークンを統合する。
しかし、視覚的およびテキスト的トークンに対するこの制約されたアーキテクチャは、視覚的トークンを処理する設計空間を制限し、潜在的に最適性能と効率をもたらす。
本稿では,LVLMのよりフレキシブルなアテンションアーキテクチャであるDecomposed Attention (D-Attn)を提案する。
D-AttnはLVLMの1次元因果自己注意を視覚的・視覚的・視覚的・テキスト的・テキスト的・テキスト的注意に分解し、分解された注意からの視覚的・テキスト的出力トークンと慎重に派生した重み付け戦略、すなわち$\alpha$-weightingとマージする。
柔軟性を活用して、事前学習されたLLMの容量を維持しながら、視覚トークン処理における2つの重要な改善を導入することができる。
1) 視覚的理解能力を高めるために, テキストから視覚的注意における偏りのある位置エンコーディングを補正する。
2) 計算処理の複雑さを$O(|V|^2)$から$O(|V|)$ for $|V|$ $に減らすために視覚的・視覚的注意を対角化させる。
大規模な実験と分析により、D-Attnの有効性が検証され、複数の画像ベンチマークが大幅に改善され、計算コストが大幅に削減された(5\times$ faster)。
コードはhttps://github.com/bytedance/DecomposedAttention.comから入手できる。
関連論文リスト
- Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment [38.04426918886084]
視覚言語モデル(LVLM)は、視覚入力をパッチレベルのトークンの密度の高いシーケンスとしてエンコードし、微細なセマンティクスをキャプチャする。
これまでは、大型言語モデル(LLM)の前か中のいずれかで、視覚トークンの削減を検討してきた。
トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを導入し、モーダル内(視覚から視覚への)注目に基づいて情報的視覚トークンを選択する。
論文 参考訳(メタデータ) (2025-06-27T14:55:40Z) - Revisit What You See: Disclose Language Prior in Vision Tokens for Efficient Guided Decoding of LVLMs [8.97780713904412]
本稿では、視覚トークンを参照してLVLM(Large Vision-Language Models)におけるテキスト生成プロセスのガイドを行う、シンプルで効果的な復号法であるReVisiTを紹介する。
提案手法は,テキストトークン分布空間に投影し,制約付き発散最小化により,各復号ステップにおいて最も関連性の高い視覚トークンを動的に選択することにより,視覚トークン内に埋め込まれた意味情報を活用する。
論文 参考訳(メタデータ) (2025-06-11T08:46:55Z) - Autoregressive Semantic Visual Reconstruction Helps VLMs Understand Better [44.15671594378141]
自動回帰視覚再構成(ASVR)を導入し,統合された自己回帰フレームワーク内での視覚的・テキスト的モダリティの同時学習を実現する。
ASVRは14のマルチモーダルベンチマークの平均スコアでLLaVA-1.5を5%改善する。
論文 参考訳(メタデータ) (2025-06-10T17:57:50Z) - VScan: Rethinking Visual Token Reduction for Efficient Large Vision-Language Models [57.2662376527586]
VScanは2段階のビジュアルトークン削減フレームワークである。
1)グローバルスキャンとローカルスキャンを視覚的エンコーディング中にマージすることで,(2)言語モデルの中間層にプルーニングを導入する。
VScanはプリフィルの2.91$times$スピードアップとFLOPの10$times$ダウンを実現し、オリジナルのパフォーマンスの95.4%を維持した。
論文 参考訳(メタデータ) (2025-05-28T17:59:08Z) - Text Speaks Louder than Vision: ASCII Art Reveals Textual Biases in Vision-Language Models [93.46875303598577]
視覚言語モデル(VLM)は、マルチモーダル情報処理において急速に進歩しているが、競合する信号の整合性は未解明のままである。
この研究は、VLMがASCIIアートをどう処理するかを考察する。
論文 参考訳(メタデータ) (2025-04-02T10:47:07Z) - Symmetrical Visual Contrastive Optimization: Aligning Vision-Language Models with Minimal Contrastive Images [7.823336661261962]
VLM(Large Vision-Language Models)は、画像の内容を無視し、言語モデルに過剰に依存する傾向にある。
本稿では,S-VCO(Symmetrical Visual Contrastive Optimization)を提案する。
論文 参考訳(メタデータ) (2025-02-19T18:05:42Z) - AdaFV: Rethinking of Visual-Language alignment for VLM acceleration [7.9213473377478865]
偏りのあるVLMの自己アテンションに応じて視覚トークンを減らすいくつかのアプローチは、不正確な応答をもたらす。
本稿では,視覚的満足度とテキスト・ツー・イメージの類似性の有効性を動的に活用する,自己適応型クロスモーダリティ・アテンション・ミックス機構を提案する。
提案手法は,特に縮小速度が十分に大きい場合,最先端のトレーニング不要なVLM加速性能を実現する。
論文 参考訳(メタデータ) (2025-01-16T13:34:33Z) - Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文 参考訳(メタデータ) (2024-11-21T16:33:30Z) - Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。
ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文 参考訳(メタデータ) (2024-10-18T03:34:32Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - Visually Descriptive Language Model for Vector Graphics Reasoning [76.42082386029206]
低レベル視覚知覚と高レベル言語推論のギャップを埋めるための視覚記述型言語モデル(VDLM)を提案する。
VDLMは,様々なマルチモーダル認識および推論タスクにおいて,GPT-4oのような最先端のLMMを大幅に改善することを示す。
論文 参考訳(メタデータ) (2024-04-09T17:30:18Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Visually-augmented pretrained language models for NLP tasks without
images [77.74849855049523]
既存のソリューションはしばしば視覚的知識増強のために明示的なイメージに依存している。
我々は、新しいtextbfVisually-textbfAugmented fine-tuningアプローチを提案する。
我々のアプローチは、BERT、RoBERTa、BART、T5を異なるスケールで継続的に改善することができる。
論文 参考訳(メタデータ) (2022-12-15T16:13:25Z) - VLMAE: Vision-Language Masked Autoencoder [21.97700040013084]
視覚言語事前学習のための視覚言語マスク付きオートエンコーダフレームワーク(VLMAE)を提案する。
VLMAEは視覚的生成学習を採用しており、モデルが細粒度で偏りのない特徴を取得するのを容易にする。
論文 参考訳(メタデータ) (2022-08-19T14:39:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。