論文の概要: Debiasing Central Fixation Confounds Reveals a Peripheral "Sweet Spot" for Human-like Scanpaths in Hard-Attention Vision
- arxiv url: http://arxiv.org/abs/2602.14834v1
- Date: Mon, 16 Feb 2026 15:25:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.482719
- Title: Debiasing Central Fixation Confounds Reveals a Peripheral "Sweet Spot" for Human-like Scanpaths in Hard-Attention Vision
- Title(参考訳): ハード・アテンション・ビジョンにおけるヒト様スキャンパスの末梢「スイートスポット」の偏り
- Authors: Pengcheng Pan, Yonekura Shogo, Yasuo Kuniyosh,
- Abstract要約: 視覚に対するタスク駆動型ハードアテンションモデルは、スキャンパスが人間の視線といかによく一致しているかによってしばしば評価される。
自明な中心固定ベースラインが驚くほど強力なスキャンパススコアを達成し、多くの学習ポリシーにアプローチすることを示す。
運動類似度を付加した中心偏差複合測度であるGCSを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human eye movements in visual recognition reflect a balance between foveal sampling and peripheral context. Task-driven hard-attention models for vision are often evaluated by how well their scanpaths match human gaze. However, common scanpath metrics can be strongly confounded by dataset-specific center bias, especially on object-centric datasets. Using Gaze-CIFAR-10, we show that a trivial center-fixation baseline achieves surprisingly strong scanpath scores, approaching many learned policies. This makes standard metrics optimistic and blurs the distinction between genuine behavioral alignment and mere central tendency. We then analyze a hard-attention classifier under constrained vision by sweeping foveal patch size and peripheral context, revealing a peripheral sweet spot: only a narrow range of sensory constraints yields scanpaths that are simultaneously (i) above the center baseline after debiasing and (ii) temporally human-like in movement statistics. To address center bias, we propose GCS (Gaze Consistency Score), a center-debiased composite metric augmented with movement similarity. GCS uncovers a robust sweet spot at medium patch size with both foveal and peripheral vision, that is not obvious from raw scanpath metrics or accuracy alone, and also highlights a "shortcut regime" when the field-of-view becomes too large. We discuss implications for evaluating active perception on object-centric datasets and for designing gaze benchmarks that better separate behavioral alignment from center bias.
- Abstract(参考訳): 視覚認識における人間の目の動きは、焦点サンプリングと周辺コンテキストのバランスを反映する。
視覚に対するタスク駆動型ハードアテンションモデルは、スキャンパスが人間の視線といかによく一致しているかによってしばしば評価される。
しかし、一般的なスキャンパスメトリクスは、特にオブジェクト中心のデータセットにおいて、データセット固有の中心バイアスによって強く構成することができる。
Gaze-CIFAR-10を用いて、自明な中心固定ベースラインが驚くほど強力なスキャンパススコアを達成し、多くの学習ポリシーに接近することを示す。
これにより、標準メトリクスは楽観的になり、真の行動アライメントと単なる中心的な傾向の区別を曖昧にします。
次に、焦点パッチサイズと周辺環境を網羅し、周囲のスイートスポットを明らかにすることにより、制約された視覚下でのハードアテンション分類器を解析する。
(i)脱ベン・脱ベン後の基線より上のもの
(II)運動統計学における時間的人間的傾向
中心バイアスに対処するために,移動類似度を付加した中心バイアス付き複合計量GCS(Gaze Consistency Score)を提案する。
GCSは、視界が大きすぎると「ショートカット・レジーム」が浮き彫りになるが、生のスキャンパスの計測値や精度だけでは明らかではない。
対象中心のデータセットに対するアクティブな知覚を評価することや、中心バイアスから行動アライメントをよりよく分離するベンチマークを設計することの意味について論じる。
関連論文リスト
- Focus-Scan-Refine: From Human Visual Perception to Efficient Visual Token Pruning [78.75062483648243]
視覚言語モデル(VLM)は、しばしば大量の視覚トークンを生成し、推論遅延とメモリフットプリントを大幅に増加させる。
視覚的質問に対して人間がどのように答えるかを模倣する,人間にインスパイアされたプラグアンドプレイプルーニングフレームワークであるFSRを提案する。
FSRは、既存の最先端プルーニング法よりも精度と効率のトレードオフを一貫して改善する。
論文 参考訳(メタデータ) (2026-02-05T16:02:48Z) - A Trainable Centrality Framework for Modern Data [3.1788482285024107]
データポイントの中央値や典型値の計測は、ロバストな推定、ランク付け、外乱検出を支えている。
本稿では、任意の表現をベースとした神経中心性フレームワークであるFused Unified Centrality Score Estimation (FUSE)を紹介する。
論文 参考訳(メタデータ) (2025-11-28T08:04:38Z) - RoboView-Bias: Benchmarking Visual Bias in Embodied Agents for Robotic Manipulation [67.38036090822982]
ロボット操作における視覚バイアスの定量化を目的とした,最初のベンチマークであるRoboView-Biasを提案する。
我々は、個々の視覚的要因とその相互作用によって引き起こされるバイアスの堅牢な測定を可能にする2,127のタスクインスタンスを作成します。
本研究は,視覚バイアスの系統的解析が,安全で信頼性の高い汎用的なエンボディエージェントの開発に必須であることを示す。
論文 参考訳(メタデータ) (2025-09-26T13:53:25Z) - Visual Attention Graph [21.860357478331107]
本研究では,視覚的満足度とスキャンパスを同時に符号化するアテンショングラフという新しいアテンション表現を提案する。
注目グラフでは、意味に基づくスキャンパスはグラフ上の経路で定義され、各ノード上の固定密度を計算することでオブジェクトの正当性を得ることができる。
論文 参考訳(メタデータ) (2025-03-11T15:22:44Z) - NCDD: Nearest Centroid Distance Deficit for Out-Of-Distribution Detection in Gastrointestinal Vision [13.349151639789902]
消化器視覚における深層学習ツールの統合は、診断、治療、患者ケアの大幅な進歩の可能性を秘めている。
しかし、大きな課題は、目に見えない、または新しく出現する病気のパターンに遭遇しても、これらのツールが過度に自信の持たない予測を行う傾向があることである。
消化管OOD検出のための特徴空間において, 新たにNCCD(Nest-centroid distance loss)スコアを提案する。
論文 参考訳(メタデータ) (2024-12-02T15:07:55Z) - OAT: Object-Level Attention Transformer for Gaze Scanpath Prediction [0.2796197251957245]
本稿では,OAT(Object-level Attention Transformer)を紹介する。
OATは人間のスキャンパスを予測し、散らかった邪魔者のシーンで対象物を検索する。
我々は、Amazonの書籍カバーデータセットと、収集したビジュアル検索のための新しいデータセットに基づいて、OATを評価した。
論文 参考訳(メタデータ) (2024-07-18T09:33:17Z) - An Inter-observer consistent deep adversarial training for visual
scanpath prediction [66.46953851227454]
本稿では,軽量なディープニューラルネットワークによるスキャンパス予測のための,サーバ間一貫した対向トレーニング手法を提案する。
我々は、最先端の手法に関して、我々のアプローチの競争力を示す。
論文 参考訳(メタデータ) (2022-11-14T13:22:29Z) - The Center of Attention: Center-Keypoint Grouping via Attention for
Multi-Person Pose Estimation [0.0]
CenterGroupは、画像内のアイデンティティに依存しないキーポイントと人中心予測のセットから人間のポーズを推定する注意ベースのフレームワークである。
提案手法は、競合するボトムアップ法よりも2.5倍高速な推論時間を有する最先端性能を得る。
論文 参考訳(メタデータ) (2021-10-11T10:22:04Z) - On-Off Center-Surround Receptive Fields for Accurate and Robust Image
Classification [54.73738206624343]
我々は、OOCS経路が光刺激に対する応答において互いに補完し、強いエッジ検出能力を確実にすることを示す。
我々は,OOCSエッジ表現によって供給されるネットワークが,標準的な深層モデルと比較して精度と照度が向上することを示す実証的証拠を提供する。
論文 参考訳(メタデータ) (2021-06-13T20:55:16Z) - High-Order Information Matters: Learning Relation and Topology for
Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。
我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文 参考訳(メタデータ) (2020-03-18T12:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。