論文の概要: Optimizing Vision-Language Consistency via Cross-Layer Regional Attention Alignment
- arxiv url: http://arxiv.org/abs/2508.00945v1
- Date: Thu, 31 Jul 2025 17:14:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.640141
- Title: Optimizing Vision-Language Consistency via Cross-Layer Regional Attention Alignment
- Title(参考訳): 階層横断的アテンションアライメントによる視覚・言語整合性の最適化
- Authors: Yifan Wang, Hongfeng Ai, Quangao Liu, Maowei Jiang, Ruiyuan Kang, Ruiqi Li, Jiahua Dong, Mengting Xiao, Cheng Jiang, Chenzhong Li,
- Abstract要約: 視覚言語モデル(VLM)は、モーダルな埋め込み学習のための多様な注意機構を効果的に調整する上で、課題に直面している。
本研究では, 連続層間地域アライメント(CCRA)を提案する。
CCRAを拡張したLLaVA-v1.5-7Bモデルを用いた10種類の視覚言語ベンチマーク実験により,最先端の性能が得られた。
- 参考スコア(独自算出の注目度): 15.373835278059552
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Language Models (VLMs) face challenges in effectively coordinating diverse attention mechanisms for cross-modal embedding learning, leading to mismatched attention and suboptimal performance. We propose Consistent Cross-layer Regional Alignment (CCRA), which introduces Layer-Patch-wise Cross Attention (LPWCA) to capture fine-grained regional-semantic correlations by jointly weighting patch and layer-wise embedding, and Progressive Attention Integration (PAI) that systematically coordinates LPWCA, layer-wise, and patch-wise attention mechanisms in sequence. This progressive design ensures consistency from semantic to regional levels while preventing attention drift and maximizing individual attention benefits. Experimental results on ten diverse vision-language benchmarks demonstrate that our CCRA-enhanced LLaVA-v1.5-7B model achieves state-of-the-art performance, outperforming all baseline methods with only 3.55M additional parameters, while providing enhanced interpretability through more regionally focused and semantically aligned attention patterns.
- Abstract(参考訳): 視覚言語モデル(VLM)は、モーダルな埋め込み学習のための多種多様な注意機構を効果的に調整する上での課題に直面する。
本稿では,階層分割型クロスアライメント(LPWCA, Layer-Patch-wise Cross Attention)を導入し,パッチの重み付けと階層埋め込みによる細粒度地域セマンティックな相関を捉えるCCRA(Consistent Cross-layer Regional Alignment)と,LPWCA,レイヤワイドおよびパッチワイドアテンション機構を系統的に協調するPAI(Progressive Attention Integration)を提案する。
このプログレッシブデザインは、セマンティックから地域レベルへの一貫性を確保しながら、注意の漂流を防ぎ、個々の注意の利益を最大化する。
CCRAを拡張したLLaVA-v1.5-7Bモデルは3.55Mの追加パラメータで全てのベースライン法を上回り、より局所的に焦点を絞ったセマンティックアライメント・アテンション・パターンによる解釈可能性の向上を実現している。
関連論文リスト
- Towards Fine-Grained Adaptation of CLIP via a Self-Trained Alignment Score [11.74414842618874]
適応中の微粒な相互モーダル相互作用をモデル化すると、より正確でクラス別な擬似ラベルが得られることを示す。
局所化画像特徴と記述言語埋め込みとを動的に整合させる革新的なアプローチであるFAIR(ファインフルアライメント・アンド・インタラクション・リファインメント)を導入する。
当社のアプローチであるFAIRは、きめ細かな教師なし適応において大幅なパフォーマンス向上を実現し、2.78%という顕著な全体的な向上を実現しています。
論文 参考訳(メタデータ) (2025-07-13T12:38:38Z) - ResCLIP: Residual Attention for Training-free Dense Vision-language Inference [27.551367463011008]
CLIPの非最終層における自己注意の相互相関も局在特性を示す。
本稿では, 中間層からの相互相関自己アテンションを利用して, 最終ブロックの注意を再認識するResidual Cross-correlation Self-attention (RCS) モジュールを提案する。
RCSモジュールは空間情報を効果的に再構成し、高密度視覚言語推論のためのCLIP内の局在電位を解放する。
論文 参考訳(メタデータ) (2024-11-24T14:14:14Z) - SCCA: Shifted Cross Chunk Attention for long contextual semantic
expansion [1.0279748604797911]
我々は、異なるKVシフト戦略を用いて、各注目層内の各フィールドを拡張するシフトされたクロスチャンク注意(SCCA)を提示する。
SCCAの異なるパターンとSCCAとSDAの組み合わせを用いた言語モデリング実験を行った。
SCCA は大規模言語モデル (LLM) をもっと長い文脈に拡張し、Placeal (PI) や LoRA と組み合わせることができる。
論文 参考訳(メタデータ) (2023-12-12T14:24:54Z) - Exploring Consistency in Cross-Domain Transformer for Domain Adaptive
Semantic Segmentation [51.10389829070684]
ドメインギャップは、自己注意の相違を引き起こす可能性がある。
このギャップのため、変圧器は、ターゲット領域の精度を低下させる刺激領域または画素に付随する。
ドメイン横断の注意層を持つアテンションマップに適応する。
論文 参考訳(メタデータ) (2022-11-27T02:40:33Z) - Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。
事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。
様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文 参考訳(メタデータ) (2021-10-25T00:54:57Z) - Progressively Guide to Attend: An Iterative Alignment Framework for
Temporal Sentence Grounding [53.377028000325424]
時間的文接地作業のための反復アライメントネットワーク(IA-Net)を提案する。
学習可能なパラメータを持つマルチモーダル特徴をパットすることで、非整合フレームワードペアの非整合問題を軽減する。
また、アライメントの知識を洗練させるために、各アライメントモジュールに従ってキャリブレーションモジュールを考案する。
論文 参考訳(メタデータ) (2021-09-14T02:08:23Z) - Learning Relation Alignment for Calibrated Cross-modal Retrieval [52.760541762871505]
言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。
ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
論文 参考訳(メタデータ) (2021-05-28T14:25:49Z) - More Than Just Attention: Learning Cross-Modal Attentions with
Contrastive Constraints [63.08768589044052]
本稿では,コントラストコンテンツリソーシング (CCR) とコントラストコンテンツスワッピング (CCS) の制約を提案する。
CCRとCCSの制約は、明示的な注意アノテーションを必要とせず、対照的な学習方法で注意モデルのトレーニングを監督する。
Flickr30kとMS-COCOのデータセットの実験は、これらの注意制約を2つの最先端の注意ベースモデルに統合することで、モデルのパフォーマンスが向上することを示した。
論文 参考訳(メタデータ) (2021-05-20T08:48:10Z) - Spectrum-Guided Adversarial Disparity Learning [52.293230153385124]
本稿では,新たなエンド・ツー・エンドの知識指向学習フレームワークを提案する。
2つの競合符号化分布を用いてクラス条件付きクラス内不一致を表現し、学習された不一致を識別することで精製された潜伏符号を学習する。
4つのHARベンチマークデータセットに対する実験により,提案手法の頑健性と,最先端の手法による一般化が実証された。
論文 参考訳(メタデータ) (2020-07-14T05:46:27Z) - Hybrid Multiple Attention Network for Semantic Segmentation in Aerial
Images [24.35779077001839]
グローバルな相関関係を適応的に捉えるために,Hybrid Multiple Attention Network (HMANet) という新しいアテンションベースのフレームワークを提案する。
本稿では,機能的冗長性を低減し,自己注意機構の効率を向上させるため,単純で効果的な領域シャッフルアテンション(RSA)モジュールを提案する。
論文 参考訳(メタデータ) (2020-01-09T07:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。