論文の概要: Cognitive Alignment At No Cost: Inducing Human Attention Biases For Interpretable Vision Transformers
- arxiv url: http://arxiv.org/abs/2604.20027v1
- Date: Tue, 21 Apr 2026 22:12:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.873185
- Title: Cognitive Alignment At No Cost: Inducing Human Attention Biases For Interpretable Vision Transformers
- Title(参考訳): 認知的アライメント(Cognitive Alignment, 対訳 認知的アライメント)
- Authors: Ethan Knights,
- Abstract要約: GoogleのViT-B/16の自己注意重みを微調整することで、5つのサリエンシメトリクス間のアライメントが大幅に改善された。
チューニングは、ベースラインの反人間的大対象バイアスを小さな対象に逆転させ、アニマシーの好みを増幅し、極端な注意のエントロピーを低下させた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For state-of-the-art image understanding, Vision Transformers (ViTs) have become the standard architecture but their processing diverges substantially from human attentional characteristics. We investigate whether this cognitive gap can be shrunk by fine-tuning the self-attention weights of Google's ViT-B/16 on human saliency fixation maps. To isolate the effects of semantically relevant signals from generic human supervision, the tuned model is compared against a shuffled control. Fine-tuning significantly improved alignment across five saliency metrics and induced three hallmark human-like biases: tuning reversed the baseline's anti-human large-object bias toward small-objects, amplified the animacy preference and diminished extreme attention entropy. Bayesian parity analysis provides decisive to very-strong evidence that this cognitive alignment comes at no cost to the model's original classification performance on in- (ImageNet), corrupted (ImageNet-C) and out-of-distribution (ObjectNet) benchmarks. An equivalent procedure applied to a ResNet-50 Convolutional Neural Network (CNN) instead degraded both alignment and accuracy, suggesting that the ViT's modular self-attention mechanism is uniquely suited for dissociating spatial priority from representational logic. These findings demonstrate that biologically grounded priors can be instilled as a free emergent property of human-aligned attention, to improve transformer interpretability.
- Abstract(参考訳): 最先端の画像理解においては、視覚変換器(ViT)が標準的なアーキテクチャとなっているが、その処理は人間の注意の特徴と大きく異なる。
本研究では,GoogleのViT-B/16の自己注意重みを人体塩分固定マップ上で微調整することにより,この認知ギャップを縮小できるかどうかを検討する。
一般的な人間の監督から意味的関連信号の影響を分離するために、調整されたモデルをシャッフル制御と比較する。
微調整は5つのサリエンシ指標のアライメントを著しく改善し、3つの目印のようなバイアスを誘導した: チューニングはベースラインの反ヒトの大物バイアスを小さな対象に逆転させ、アニマシーの好みを増幅し、極端な注意のエントロピーを低下させた。
ベイジアンパリティ分析は、この認知アライメントが、イン(ImageNet)、イン(ImageNet-C)、破損(ImageNet-C)、アウト・オブ・ディストリビューション(ObjectNet)ベンチマークにおけるモデルの本来の分類性能に何のコストもかからないという決定的な証拠を提供する。
ResNet-50 Convolutional Neural Network (CNN) に適用される同等の手順は、その代わりにアライメントと精度の両方を劣化させ、ViTのモジュラー自己アテンション機構が表現論理から空間優先を解離するのに一意に適していることを示唆している。
これらの結果から, 生物学的に接地した前駆体は, トランスフォーマーの解釈性を向上させるために, 人間の注意の創発的特性として接種できることが示唆された。
関連論文リスト
- Do Machines Fail Like Humans? A Human-Centred Out-of-Distribution Spectrum for Mapping Error Alignment [1.974820485832244]
我々は,人間の知覚障害のスペクトルとしてOODの度合いを再定義する,人間中心の枠組みを提案する。
我々はこの枠組みをオブジェクト認識に適用し、ディープラーニングアーキテクチャ全体にわたるユニークな、状況に依存したモデル-ヒューマンアライメントのランキングとプロファイルを明らかにする。
論文 参考訳(メタデータ) (2026-03-08T04:51:39Z) - OrthoFormer: Instrumental Variable Estimation in Transformer Hidden States via Neural Control Functions [0.0]
シーケンシャルなモデリングにおいて優れたトランスフォーマーアーキテクチャは、相関学習によって基本的に制限される。
そこで我々はOrthoFormerを提案する。OrthoFormerは機械的変数推定をニューラル制御機能を介してTransformerブロックに直接組み込む因果的基底アーキテクチャである。
論文 参考訳(メタデータ) (2026-03-08T03:05:16Z) - RoboView-Bias: Benchmarking Visual Bias in Embodied Agents for Robotic Manipulation [67.38036090822982]
ロボット操作における視覚バイアスの定量化を目的とした,最初のベンチマークであるRoboView-Biasを提案する。
我々は、個々の視覚的要因とその相互作用によって引き起こされるバイアスの堅牢な測定を可能にする2,127のタスクインスタンスを作成します。
本研究は,視覚バイアスの系統的解析が,安全で信頼性の高い汎用的なエンボディエージェントの開発に必須であることを示す。
論文 参考訳(メタデータ) (2025-09-26T13:53:25Z) - Optical aberrations in autonomous driving: Physics-informed parameterized temperature scaling for neural network uncertainty calibration [49.03824084306578]
本稿では,ニューラルネットワークのキャリブレーションアーキテクチャに物理的帰納バイアスを組み込むことにより,AIターゲットアプリケーションの堅牢性と信頼性を高めることを提案する。
信頼に値する不確実性表現と認識連鎖の総合的検証戦略の道を開く。
論文 参考訳(メタデータ) (2024-12-18T10:36:46Z) - Neural-Logic Human-Object Interaction Detection [67.4993347702353]
本稿では,ニューラルロジック推論を利用した新しいHOI検出器であるL OGIC HOIと,実体間の相互作用を推測するTransformerを提案する。
具体的には,バニラトランスフォーマーの自己保持機構を改変し,人間,行動,対象>三重項を推論し,新たな相互作用を構成する。
我々はこれらの2つの特性を一階述語論理で定式化し、それらを連続空間に基底にして、我々のアプローチの学習過程を制約し、性能とゼロショットの一般化能力を向上させる。
論文 参考訳(メタデータ) (2023-11-16T11:47:53Z) - Unifying Top-down and Bottom-up Scanpath Prediction Using Transformers [40.27531644565077]
本研究では,注意制御の両形態を予測する単一モデルであるヒューマン・アテンション・トランスフォーマー(HAT)を提案する。
HATは、有効性、一般性、解釈可能性を強調する、計算的注意の新たな標準を定めている。
論文 参考訳(メタデータ) (2023-03-16T15:13:09Z) - Non-Local Latent Relation Distillation for Self-Adaptive 3D Human Pose
Estimation [63.199549837604444]
3次元ポーズ推定アプローチは、強い(2D/3Dポーズ)または弱い(複数ビューまたは深さ)ペアによる監督の異なる形態を利用する。
我々は3Dポーズ学習を,ラベル付きソースドメインから完全に損なわれないターゲットへのタスク知識の転送を目的とした,自己指導型適応問題として捉えた。
我々は、異なる自己適応設定を評価し、標準ベンチマークで最先端の3Dポーズ推定性能を示す。
論文 参考訳(メタデータ) (2022-04-05T03:52:57Z) - Miti-DETR: Object Detection based on Transformers with Mitigatory
Self-Attention Convergence [17.854940064699985]
本稿では,緩和的自己認識機構を備えたトランスフォーマーアーキテクチャを提案する。
Miti-DETRは、各注意層の入力をそのレイヤの出力に予約し、「非注意」情報が注意伝播に関与するようにします。
Miti-DETRは、既存のDETRモデルに対する平均検出精度と収束速度を大幅に向上させる。
論文 参考訳(メタデータ) (2021-12-26T03:23:59Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。