論文の概要: Gazing at Rewards: Eye Movements as a Lens into Human and AI Decision-Making in Hybrid Visual Foraging
- arxiv url: http://arxiv.org/abs/2411.09176v1
- Date: Thu, 14 Nov 2024 04:29:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:25:10.315417
- Title: Gazing at Rewards: Eye Movements as a Lens into Human and AI Decision-Making in Hybrid Visual Foraging
- Title(参考訳): Rewardsでの視線:ハイブリッド・ビジュアル・フォージングにおける人間とAIの意思決定へのレンズとしての眼球運動
- Authors: Bo Wang, Dingwei Tan, Yen-Ling Kuo, Zhaowei Sun, Jeremy M. Wolfe, Tat-Jen Cham, Mengmi Zhang,
- Abstract要約: 我々は、強化学習により訓練されたトランスフォーマーベースのビジュアルフォアガー(VF)モデルを開発する。
我々のモデルは、一連のターゲットとその対応する値を取り、望ましくない視覚を用いて画像を処理します。
眼球運動を連続させ、各固定アイテムを収集するかどうかを判断する。
- 参考スコア(独自算出の注目度): 18.63107384652966
- License:
- Abstract: Imagine searching a collection of coins for quarters ($0.25$), dimes ($0.10$), nickels ($0.05$), and pennies ($0.01$)-a hybrid foraging task where observers look for multiple instances of multiple target types. In such tasks, how do target values and their prevalence influence foraging and eye movement behaviors (e.g., should you prioritize rare quarters or common nickels)? To explore this, we conducted human psychophysics experiments, revealing that humans are proficient reward foragers. Their eye fixations are drawn to regions with higher average rewards, fixation durations are longer on more valuable targets, and their cumulative rewards exceed chance, approaching the upper bound of optimal foragers. To probe these decision-making processes of humans, we developed a transformer-based Visual Forager (VF) model trained via reinforcement learning. Our VF model takes a series of targets, their corresponding values, and the search image as inputs, processes the images using foveated vision, and produces a sequence of eye movements along with decisions on whether to collect each fixated item. Our model outperforms all baselines, achieves cumulative rewards comparable to those of humans, and approximates human foraging behavior in eye movements and foraging biases within time-limited environments. Furthermore, stress tests on out-of-distribution tasks with novel targets, unseen values, and varying set sizes demonstrate the VF model's effective generalization. Our work offers valuable insights into the relationship between eye movements and decision-making, with our model serving as a powerful tool for further exploration of this connection. All data, code, and models will be made publicly available.
- Abstract(参考訳): 例えば、クォーターズ(0.25ドル)、ダイム(0.10ドル)、ニッケル(0.05ドル)、ペニー(0.01ドル)のコインのコレクションを検索すると、オブザーバーは複数のターゲットタイプの複数のインスタンスを探す。
そのようなタスクでは、目標値とその有病率は、採食行動や眼球運動行動にどのように影響するか(例えば、稀なクォーターや一般的なニッケルを優先すべきか)。
そこで我々は,人間の心理物理学実験を行い,人間は有能な報奨金者であることを明らかにした。
眼の固定は平均的な報酬が高い地域へ引き起こされ、固定期間はより価値の高い目標に対して長くなり、累積的な報酬はチャンスを超え、最適な捕食者の上限に近づいた。
人間の意思決定過程を探索するために,強化学習を用いて学習したトランスフォーマーベースビジュアルフォアガー(VF)モデルを開発した。
我々のVFモデルは、一連のターゲット、対応する値、検索イメージを入力として取り、葉緑的視覚を用いて画像を処理し、各固定アイテムを収集するかどうかの判断とともに、一連の眼球運動を生成する。
我々のモデルは、すべてのベースラインを上回り、人間のものと同等の累積報酬を達成し、眼球運動における人間の捕食行動と時間制限環境における捕食バイアスを近似する。
さらに、新しい目標、目に見えない値、および様々なセットサイズを持つ分布外タスクのストレステストは、VFモデルの効果的な一般化を示している。
我々の研究は、眼球運動と意思決定の関係に関する貴重な洞察を与え、我々のモデルは、このつながりをさらに探求するための強力なツールとなる。
すべてのデータ、コード、モデルは公開されます。
関連論文リスト
- Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。
我々は500人以上の参加者から行動データの35万件の試行を収集した。
次に、一般的な視覚モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-09-09T17:59:13Z) - Neural feels with neural fields: Visuo-tactile perception for in-hand
manipulation [57.60490773016364]
マルチフィンガーハンドの視覚と触覚を組み合わせることで,手動操作時の物体の姿勢と形状を推定する。
提案手法であるNeuralFeelsは,ニューラルネットワークをオンラインで学習することでオブジェクトの形状を符号化し,ポーズグラフ問題を最適化して共同で追跡する。
私たちの結果は、タッチが少なくとも、洗練され、そして最も最良のものは、手動操作中に視覚的推定を曖昧にすることを示しています。
論文 参考訳(メタデータ) (2023-12-20T22:36:37Z) - H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding
Object Articulations from Interactions [62.510951695174604]
The Hypothesize, Simulate, Act, Update, and Repeat (H-SAUR) is a probabilistic generative framework that generated hypotheses about objects articulate given input observed。
提案手法は,現在最先端のオブジェクト操作フレームワークよりも優れていることを示す。
我々は、学習に基づく視覚モデルから学習前の学習を統合することにより、H-SAURのテスト時間効率をさらに向上する。
論文 参考訳(メタデータ) (2022-10-22T18:39:33Z) - One-Shot Object Affordance Detection in the Wild [76.46484684007706]
Affordance Detectionは、画像内のオブジェクトの潜在的なアクション可能性を特定することを指す。
我々は、人間の行動目的を推定し、それを転送して、すべての候補画像から共通価格を検出するワンショットアフォーダンス検出ネットワーク(OSAD-Net)を考案する。
複雑なシーンと豊富なアノテーションによって、当社のPADv2データセットは、アベイランス検出メソッドをベンチマークするためのテストベッドとして使用することができます。
論文 参考訳(メタデータ) (2021-08-08T14:53:10Z) - Goal-Directed Planning by Reinforcement Learning and Active Inference [16.694117274961016]
ベイジアン推論を用いた新たな意思決定フレームワークを提案する。
ゴール指向の振る舞いは、計画によって$z$の後方分布から決定される。
本稿では,カメラ観測と連続運動動作を用いたセンサモレータナビゲーションタスクの実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2021-06-18T06:41:01Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Appearance Consensus Driven Self-Supervised Human Mesh Recovery [67.20942777949793]
単眼画像から人間のポーズや形状を推定する自己教師付きメッシュ回復フレームワークを提案する。
標準モデルに基づく3次元ポーズ推定ベンチマークの最先端結果を得る。
その結果、色付きメッシュ予測により、ポーズや形状推定以外にも、さまざまな外観関連タスクにフレームワークの使用が開放される。
論文 参考訳(メタデータ) (2020-08-04T05:40:39Z) - Diversity in Action: General-Sum Multi-Agent Continuous Inverse Optimal
Control [12.771478252695399]
上記の全ての点に対処するゲーム理論法を提案する。
AV に使われている多くの既存手法と比較して,1) 完全通信を必要としない,2) エージェントごとの報奨が可能である。
我々の実験は、これらのより現実的な仮定が、期待される現実世界の行動によく一致する、質的かつ定量的に異なる報酬予測と将来の行動予測をもたらすことを示した。
論文 参考訳(メタデータ) (2020-04-27T09:53:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。