論文の概要: CAMAL: Improving Attention Alignment and Faithfulness with Segmentation Masks
- arxiv url: http://arxiv.org/abs/2605.08325v1
- Date: Fri, 08 May 2026 16:51:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.568163
- Title: CAMAL: Improving Attention Alignment and Faithfulness with Segmentation Masks
- Title(参考訳): CAMAL: セグメンテーションマスクによるアライメントアライメントと信仰の改善
- Authors: Rajdeep Singh Hundal, Yan Xiao, Jin Song Dong, Manuel Rigger,
- Abstract要約: 視覚モデルにおける注意のアライメントと忠実度を改善するために,クラス活性化マップ注意学習(CAMAL)を提案する。
CAMALはトレーニング中の各画像に対するモデルの注意を抽出し、対応するセグメンテーションマスクから得られる地道判別領域と比較する。
CAMALは補助正則化剤として機能し、地道な差別地域に合わせて注意を喚起し、他の場所での注意を抑える。
- 参考スコア(独自算出の注目度): 20.876949110882325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many vision datasets now provide segmentation masks in addition to annotated images to support a wide range of tasks. In this work, we propose Class Activation Map Attention Learning (CAMAL), an efficient and scalable method that utilizes segmentation masks to improve attention alignment and faithfulness in vision models. Specifically, attention alignment refers to the degree to which a model's attention aligns with ground-truth discriminative regions, while attention faithfulness refers to the degree to which a model's attention influences its decision. Improving both attention alignment and faithfulness is essential for ensuring that model attention is both spatially accurate and causally meaningful. To improve attention alignment and faithfulness in vision models, CAMAL first extracts the model's attention for each image during training and then compares the attention to ground-truth discriminative regions obtained from the corresponding segmentation masks. CAMAL then acts as an auxiliary regularizer, encouraging attention that aligns with ground-truth discriminative regions, while suppressing attention elsewhere. We evaluated CAMAL across two learning paradigms -- Deep Learning (DL) and Deep Reinforcement Learning (DRL) -- and observed consistent, significant improvements in both attention alignment and faithfulness. In particular, CAMAL yields statistically significant gains in attention alignment across all settings, and improves attention faithfulness by over 35% compared to recent work. Moreover, we show that improved attention alignment and faithfulness enhance explainability, while yielding improved or comparable generalization performance without increasing inference cost. These findings demonstrate that the spatial information contained within segmentation masks can be effectively leveraged to guide model attention across learning tasks.
- Abstract(参考訳): 多くのビジョンデータセットが、幅広いタスクをサポートする注釈付きイメージに加えて、セグメンテーションマスクを提供している。
本研究では,セグメンテーションマスクを用いた視覚モデルにおける注意のアライメントと忠実度を改善するために,CAMAL(Class Activation Map Attention Learning)を提案する。
特に、アテンションアライメントとは、モデルのアテンションが地道的識別領域と一致する程度を指し、アテンションアライメントはモデルのアテンションがその決定に影響を与える度合いを指す。
注意のアライメントと忠実さの両方を改善することは、モデル注意が空間的に正確かつ因果的に有意義であることを保証するために不可欠である。
視覚モデルにおける注意アライメントと忠実性を改善するために、CAMALはまず訓練中の各画像に対するモデルの注意を抽出し、次に対応するセグメンテーションマスクから得られる地道判別領域と比較する。
その後、CAMALは補助正則化器として機能し、地道な差別地域に合わせて注意を喚起し、他所での注意を抑える。
我々は,深層学習(DL)と深層強化学習(DRL)という2つの学習パラダイムにわたるCAMALを評価し,注意的アライメントと忠実性の両方において,一貫性と顕著な改善を観察した。
特に、CAMALは、すべての設定における注意調整において統計的に有意な増加をもたらし、最近の研究と比較して、注意忠実度を35%以上向上させる。
さらに,改良されたアライメントと忠実さが説明可能性を高める一方で,推論コストを増大させることなく,改良されたあるいは同等な一般化性能が得られることを示した。
これらの結果から,セグメンテーションマスクに含まれる空間情報を効果的に活用し,学習課題間のモデル注意を誘導できることが示唆された。
関連論文リスト
- Focusing by Contrastive Attention: Enhancing VLMs' Visual Reasoning [79.34909830834464]
VLM(Vision-Language Models)は様々な視覚的タスクで顕著な成功を収めているが、複雑な視覚環境では性能が低下している。
視覚的複雑性は、注意エントロピーと強く相関し、推論性能に悪影響を及ぼすことを示す。
本稿では,CARVE(Contrastive Attention Refinement for Visual Enhancement)を提案する。
論文 参考訳(メタデータ) (2025-09-08T09:20:04Z) - Mitigating Hallucination in Large Vision-Language Models via Adaptive Attention Calibration [2.19036693868242]
大規模視覚言語モデル(LVLM)はマルチモーダルタスクにおいて印象的な性能を発揮するが、幻覚に悩まされることが多い。
2つの重要なバイアスをターゲットとして、この問題に対処するために、信頼性意識(CAAC)フレームワークを導入します。
CAACでは、視覚トークン間の注意のバランスをとるためにVTC(Visual-Token)と、視覚的接地を強化するためにAdaptive Attention Re-Scaling(Adaptive Re-Scaling)という2段階のアプローチを採用している。
論文 参考訳(メタデータ) (2025-05-27T17:45:21Z) - Unveiling and Harnessing Hidden Attention Sinks: Enhancing Large Language Models without Training through Attention Calibration [15.36841874118801]
我々は,大規模言語モデル(LLM)における注意シンクの存在をより深く理解することを目的としている。
本研究では,入力適応方式で推論中のハエの注意分布を自動的に最適化する訓練自由注意法(ACT)を提案する。
ACTは、Llama-30Bに適用した場合、異なるデータセット間で平均7.30%の精度向上を達成する。
論文 参考訳(メタデータ) (2024-06-22T07:00:43Z) - Elliptical Attention [1.7597562616011944]
Pairwise dot-product self-attentionは、言語やビジョンにおける様々なアプリケーションで最先端のパフォーマンスを実現するトランスフォーマーの成功の鍵である。
本稿では,マハラノビス距離計を用いて注意重みの計算を行い,その基礎となる特徴空間を文脈的関連性の高い方向に拡張することを提案する。
論文 参考訳(メタデータ) (2024-06-19T18:38:11Z) - Dual Cross-Attention Learning for Fine-Grained Visual Categorization and
Object Re-Identification [19.957957963417414]
本稿では,自己意図学習と協調する2つのクロスアテンション学習(DCAL)アルゴリズムを提案する。
まず,グローバル・ローカル・クロスアテンション(GLCA)を提案する。
第2に、画像ペア間の相互作用を確立するために、ペアワイズ・クロスアテンション(PWCA)を提案する。
論文 参考訳(メタデータ) (2022-05-04T16:14:26Z) - Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。
事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。
様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文 参考訳(メタデータ) (2021-10-25T00:54:57Z) - Counterfactual Attention Learning for Fine-Grained Visual Categorization
and Re-identification [101.49122450005869]
本稿では,因果推論に基づくより効果的な注意力学習法を提案する。
具体的には,学習した視覚的注意がネットワーク予測に与える影響を分析する。
本手法は,広範囲の粒度認識タスクにおいて評価する。
論文 参考訳(メタデータ) (2021-08-19T14:53:40Z) - More Than Just Attention: Learning Cross-Modal Attentions with
Contrastive Constraints [63.08768589044052]
本稿では,コントラストコンテンツリソーシング (CCR) とコントラストコンテンツスワッピング (CCS) の制約を提案する。
CCRとCCSの制約は、明示的な注意アノテーションを必要とせず、対照的な学習方法で注意モデルのトレーニングを監督する。
Flickr30kとMS-COCOのデータセットの実験は、これらの注意制約を2つの最先端の注意ベースモデルに統合することで、モデルのパフォーマンスが向上することを示した。
論文 参考訳(メタデータ) (2021-05-20T08:48:10Z) - Heterogeneous Contrastive Learning: Encoding Spatial Information for
Compact Visual Representations [183.03278932562438]
本稿では,エンコーディング段階に空間情報を加えることで,対照的な目的と強いデータ拡張操作の間の学習の不整合を緩和する効果的な手法を提案する。
提案手法は,視覚表現の効率を向上し,自己指導型視覚表現学習の今後の研究を刺激する鍵となるメッセージを提供する。
論文 参考訳(メタデータ) (2020-11-19T16:26:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。