論文の概要: Learning to Look: Cognitive Attention Alignment with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2509.21247v1
- Date: Thu, 25 Sep 2025 14:40:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.989268
- Title: Learning to Look: Cognitive Attention Alignment with Vision-Language Models
- Title(参考訳): 見ることの学習:視覚言語モデルを用いた認知的注意アライメント
- Authors: Ryan L. Yang, Dipkamal Bhusal, Nidhi Rastogi,
- Abstract要約: 畳み込みニューラルネットワーク(CNN)は表面相関を利用してしばしば「熱い」。
近年,概念に基づく監視と説明規則化を用いて,モデル注意を導く手法が提案されている。
視覚言語モデルを利用してセマンティックアテンションマップを自動的に生成するスケーラブルなフレームワークを提案する。
- 参考スコア(独自算出の注目度): 2.676349883103404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Convolutional Neural Networks (CNNs) frequently "cheat" by exploiting superficial correlations, raising concerns about whether they make predictions for the right reasons. Inspired by cognitive science, which highlights the role of attention in robust human perception, recent methods have sought to guide model attention using concept-based supervision and explanation regularization. However, these techniques depend on labor-intensive, expert-provided annotations, limiting their scalability. We propose a scalable framework that leverages vision-language models to automatically generate semantic attention maps using natural language prompts. By introducing an auxiliary loss that aligns CNN attention with these language-guided maps, our approach promotes more reliable and cognitively plausible decision-making without manual annotation. Experiments on challenging datasets, ColoredMNIST and DecoyMNIST, show that our method achieves state-of-the-art performance on ColorMNIST and remains competitive with annotation-heavy baselines on DecoyMNIST, demonstrating improved generalization, reduced shortcut reliance, and model attention that better reflects human intuition.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は表面的相関を利用してしばしば「熱く」、正しい理由で予測を行うかどうかを懸念する。
認知科学に触発された近年の手法は、概念に基づく監督と説明規則化を用いて、モデルの注意を導くことを目指している。
しかしながら、これらのテクニックは、労働集約的で専門家が提供するアノテーションに依存し、スケーラビリティを制限します。
本稿では,視覚モデルを利用して,自然言語のプロンプトを用いた意味的注意マップの自動生成を行うスケーラブルなフレームワークを提案する。
これらの言語誘導マップとCNNの注意を一致させる補助的損失を導入することにより、手動のアノテーションを使わずに、より信頼性が高く、認知的に妥当な意思決定を促進することができる。
ColoredMNIST と DecoyMNIST による挑戦的データセットの実験は,我々の手法が ColorMNIST の最先端性能を達成し,DecoyMNIST のアノテーションに富んだベースラインと競合し,一般化の向上,ショートカット依存の低減,人間の直感を反映したモデル注意力の向上を実証した。
関連論文リスト
- Cognitively-Inspired Emergent Communication via Knowledge Graphs for Assisting the Visually Impaired [8.182196998385583]
本稿では,人間の視覚知覚と認知マッピングをエミュレートする新しいフレームワーク,Cognitively-Inspired Emergent Communication via Knowledge Graphs (VAG-EC)を紹介する。
本手法は,対象とその関係を表現する知識グラフを構築し,タスク関連エンティティを優先する注意機構を導入し,人間の選択的注意を反映する。
この構造化されたアプローチは、コンパクトで解釈可能で、文脈に敏感な記号言語の出現を可能にする。
論文 参考訳(メタデータ) (2025-05-28T08:09:06Z) - Beyond RNNs: Benchmarking Attention-Based Image Captioning Models [0.0]
本研究は、RNNに基づくアプローチに対して、注意に基づく画像キャプションモデルの性能をベンチマークする。
画像特徴と生成されたキャプションのアライメントを高めるためのバハダナウアテンションの有効性を評価する。
その結果,注目に基づくモデルは,より正確で意味的にリッチなキャプションを生成する上で,RNNよりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-02-26T01:05:18Z) - Collapsed Language Models Promote Fairness [88.48232731113306]
偏りのある言語モデルはトークン表現と単語埋め込みの間に崩壊したアライメントを示す。
我々は,幅広い脱バイアス法において,公平性を効果的に向上する原理的な微調整法を設計する。
論文 参考訳(メタデータ) (2024-10-06T13:09:48Z) - Tuning-Free Accountable Intervention for LLM Deployment -- A
Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。
我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T19:18:53Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Semantic Interpretation and Validation of Graph Attention-based
Explanations for GNN Models [9.260186030255081]
本稿では,グラフニューラルネットワーク(GNN)に基づくモデルの説明可能性を高めるために,意味的注意力を用いた手法を提案する。
本研究は,注意分布のばらつきを意味的にソートした特徴集合と関連づけることで,既存の注意グラフ説明可能性手法を拡張した。
提案手法をライダーポイントクラウド推定モデルに適用し,性能向上に寄与する主要なセマンティッククラスを同定する。
論文 参考訳(メタデータ) (2023-08-08T12:34:32Z) - Variational Structured Attention Networks for Deep Visual Representation
Learning [49.80498066480928]
空間的注意マップとチャネル的注意の両方を原則的に共同学習するための統合的深層フレームワークを提案する。
具体的には,確率的表現学習フレームワークに注目度の推定と相互作用を統合する。
ニューラルネットワーク内で推論ルールを実装し,確率パラメータとcnnフロントエンドパラメータのエンドツーエンド学習を可能にする。
論文 参考訳(メタデータ) (2021-03-05T07:37:24Z) - Proactive Pseudo-Intervention: Causally Informed Contrastive Learning
For Interpretable Vision Models [103.64435911083432]
PPI(Proactive Pseudo-Intervention)と呼ばれる新しい対照的な学習戦略を提案する。
PPIは、因果関係のない画像の特徴を保護するために積極的に介入する。
また,重要な画像画素を識別するための,因果的に通知された新たなサリエンスマッピングモジュールを考案し,モデル解釈の容易性を示す。
論文 参考訳(メタデータ) (2020-12-06T20:30:26Z) - Deep Reinforced Attention Learning for Quality-Aware Visual Recognition [73.15276998621582]
我々は,任意の畳み込みニューラルネットワークにおける中間注意マップの弱教師付き生成機構を構築した。
メタ批評家ネットワークを導入し、メインネットワークにおける注目マップの質を評価する。
論文 参考訳(メタデータ) (2020-07-13T02:44:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。