論文の概要: EVA: Bridging Performance and Human Alignment in Hard-Attention Vision Models for Image Classification
- arxiv url: http://arxiv.org/abs/2603.27340v1
- Date: Sat, 28 Mar 2026 17:13:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.911377
- Title: EVA: Bridging Performance and Human Alignment in Hard-Attention Vision Models for Image Classification
- Title(参考訳): EVA:画像分類のためのハードアテンションビジョンモデルにおけるブリッジ性能と人間のアライメント
- Authors: Pengcheng Pan, Yonekura Shogo, Kuniyoshi Yasuo,
- Abstract要約: EVAは、人為的なトレードオフを明確にし、調整可能な、ハードアテンションなメカニスティックなテストベッドである。
CNNに基づく特徴抽出は精度を向上するが、人間の類似性を抑える一方、分散制御とゲーティングは、最小性能の損失で人列軌道を復元する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optimizing vision models purely for classification accuracy can impose an alignment tax, degrading human-like scanpaths and limiting interpretability. We introduce EVA, a neuroscience-inspired hard-attention mechanistic testbed that makes the performance-human-likeness trade-off explicit and adjustable. EVA samples a small number of sequential glimpses using a minimal fovea-periphery representation with CNN-based feature extractor and integrates variance control and adaptive gating to stabilize and regulate attention dynamics. EVA is trained with the standard classification objective without gaze supervision. On CIFAR-10 with dense human gaze annotations, EVA improves scanpath alignment under established metrics such as DTW, NSS, while maintaining competitive accuracy. Ablations show that CNN-based feature extraction drives accuracy but suppresses human-likeness, whereas variance control and gating restore human-aligned trajectories with minimal performance loss. We further validate EVA's scalability on ImageNet-100 and evaluate scanpath alignment on COCO-Search18 without COCO-Search18 gaze supervision or finetuning, where EVA yields human-like scanpaths on natural scenes without additional training. Overall, EVA provides a principled framework for trustworthy, human-interpretable active vision.
- Abstract(参考訳): 分類精度に最適化された視覚モデルは、アライメント税を課し、人間のようなスキャンパスを劣化させ、解釈可能性を制限することができる。
EVAは神経科学にインスパイアされたハード・アテンション・メカニスティック・テストベッドで、パフォーマンス・ヒューマン・ライクネスのトレードオフを明確にし、調整可能にする。
EVAは、CNNベースの特徴抽出器を用いた最小空間周辺表現を用いて少数のシーケンシャルスリープをサンプリングし、分散制御と適応ゲーティングを統合して、注意ダイナミクスの安定化と制御を行う。
EVAは、視線監督なしで標準的な分類目標で訓練されている。
CIFAR-10では、密集したヒトの視線アノテーションにより、EVAはDTW、NASなどの確立したメトリクスの下でスキャンパスアライメントを改善し、競争精度を維持している。
アブレーションは,CNNに基づく特徴抽出が精度を向上するが,人間の類似性を抑える一方で,分散制御とゲーティングは,性能損失を最小限に抑えながら人間の整列軌道を復元することを示している。
我々はさらに、ImageNet-100上でのEVAのスケーラビリティを評価し、COCO-Search18の視線監督や微調整なしでCOCO-Search18上のスキャンパスアライメントを評価する。
全体として、EVAは信頼できる人間解釈可能なアクティブビジョンのための原則化されたフレームワークを提供する。
関連論文リスト
- Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。
SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文 参考訳(メタデータ) (2026-02-25T06:58:06Z) - K-Sort Eval: Efficient Preference Evaluation for Visual Generation via Corrected VLM-as-a-Judge [51.93484138861584]
視覚生成モデルの急速な開発により、よりスケーラブルで人間に合わせた評価方法の必要性が高まっている。
K-Sort Evalは,後方補正と動的マッチングを統合した信頼性と効率的なVLMに基づく評価フレームワークである。
実験の結果、K-Sort EvalはK-Sort Arenaと一致した評価結果を提供する。
論文 参考訳(メタデータ) (2026-02-10T05:07:46Z) - Data-centric Design of Learning-based Surgical Gaze Perception Models in Multi-Task Simulation [16.689550165317765]
ロボットによる侵襲的最小侵襲手術(RMIS)では、触覚フィードバックと奥行きの手がかりが専門的な視覚的知覚に依存している。
本研究では,ダ・ヴィンチ・シムNowシミュレータ上で4つのドリルで収集した,アクティブ・パッシブ・マルチタスク・サーチ・ギャグ・データセットについて紹介する。
我々は、視線組織におけるスキルとモダリティに依存した差異を定量化し、手術監督のための受動的視線の置換性を評価する。
論文 参考訳(メタデータ) (2026-02-09T22:52:59Z) - Controllable Value Alignment in Large Language Models through Neuron-Level Editing [87.83756695719667]
我々は,大言語モデルにおける制御可能な値アライメントのためのニューロンレベルの編集フレームワークNeVAを提案する。
NeVAは、汎用能力においてより少ない性能劣化を招きながら、より強力な目標値アライメントを実現する。
NeVAは平均リークを著しく減らし、残効は意味論的に関連する値クラスに限られる。
論文 参考訳(メタデータ) (2026-02-07T04:35:16Z) - Moral Anchor System: A Predictive Framework for AI Value Alignment and Drift Prevention [0.0]
重要なリスクはバリュードリフトであり、進化するコンテキストや学習ダイナミクス、意図しない最適化によって、AIシステムが一致した値から逸脱する。
我々は,AIエージェントの値ドリフトを検出し,予測し,緩和する新しいフレームワークであるMoral Anchor System(MAS)を提案する。
論文 参考訳(メタデータ) (2025-10-05T07:24:23Z) - Emulating Human-like Adaptive Vision for Efficient and Flexible Machine Visual Perception [93.20637973889434]
本稿では、"パッシブ"から"アクティブ"ビジョンモデルへのパラダイムシフトを促進するための一般的なフレームワークであるAdaptiveNNを紹介する。
AdaptiveNNは、視覚知覚を粗い連続的な意思決定プロセスとして定式化する。
アダプティブNNは、大規模な視覚認識、きめ細かい識別、視覚検索、実際の運転と医療シナリオからの画像処理を含む、9つのタスクにまたがる17のベンチマークで評価する。
論文 参考訳(メタデータ) (2025-09-18T18:25:43Z) - CUEING: a lightweight model to Capture hUman attEntion In driviNG [6.310770791023399]
本稿では,既存の視線データセットからノイズを除去する適応的浄化手法と,頑健で軽量な自己注意型視線予測モデルを提案する。
提案手法は, モデル一般化可能性と性能を最大12.13%向上させるだけでなく, 最先端技術と比較して, モデル複雑性を最大98.2%低減させる。
論文 参考訳(メタデータ) (2023-05-25T04:44:50Z) - EVA: Exploring the Limits of Masked Visual Representation Learning at
Scale [46.952339726872374]
EVAは視覚中心の基盤モデルで、大規模に視覚表現の限界を探索する。
EVAは、目に見える画像パッチに調整されたマスクされた画像テキスト整列視覚機能を再構築するために事前訓練されたバニラViTである。
EVAから巨大なCLIPのビジョンタワーを初期化することで、トレーニングを大幅に安定させ、より少ないサンプルと少ない計算でスクラッチからトレーニングを上回ります。
論文 参考訳(メタデータ) (2022-11-14T18:59:52Z) - Prediction of progressive lens performance from neural network
simulations [62.997667081978825]
本研究の目的は,畳み込みニューラルネットワーク(CNN)に基づく視覚的視力(VA)予測の枠組みを提案することである。
提案する総合シミュレーションツールは主観的視覚性能の正確なモデルとして機能することが示されている。
論文 参考訳(メタデータ) (2021-03-19T14:51:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。