Fugu-MT 論文翻訳(概要): Gazing at Rewards: Eye Movements as a Lens into Human and AI Decision-Making in Hybrid Visual Foraging

論文の概要: Gazing at Rewards: Eye Movements as a Lens into Human and AI Decision-Making in Hybrid Visual Foraging

arxiv url: http://arxiv.org/abs/2411.09176v2
Date: Sat, 16 Nov 2024 07:00:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:47.577527
Title: Gazing at Rewards: Eye Movements as a Lens into Human and AI Decision-Making in Hybrid Visual Foraging
Title（参考訳）: Rewardsでの視線:ハイブリッド・ビジュアル・フォージングにおける人間とAIの意思決定へのレンズとしての眼球運動
Authors: Bo Wang, Dingwei Tan, Yen-Ling Kuo, Zhaowei Sun, Jeremy M. Wolfe, Tat-Jen Cham, Mengmi Zhang,
Abstract要約: 我々は、強化学習により訓練されたトランスフォーマーベースのビジュアルフォアガー(VF)モデルを開発する。我々のモデルは、一連のターゲットとその対応する値を取り、望ましくない視覚を用いて画像を処理します。眼球運動を連続させ、各固定アイテムを収集するかどうかを判断する。
参考スコア（独自算出の注目度）: 18.63107384652966
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Imagine searching a collection of coins for quarters ($0.25$), dimes ($0.10$), nickels ($0.05$), and pennies ($0.01$)-a hybrid foraging task where observers look for multiple instances of multiple target types. In such tasks, how do target values and their prevalence influence foraging and eye movement behaviors (e.g., should you prioritize rare quarters or common nickels)? To explore this, we conducted human psychophysics experiments, revealing that humans are proficient reward foragers. Their eye fixations are drawn to regions with higher average rewards, fixation durations are longer on more valuable targets, and their cumulative rewards exceed chance, approaching the upper bound of optimal foragers. To probe these decision-making processes of humans, we developed a transformer-based Visual Forager (VF) model trained via reinforcement learning. Our VF model takes a series of targets, their corresponding values, and the search image as inputs, processes the images using foveated vision, and produces a sequence of eye movements along with decisions on whether to collect each fixated item. Our model outperforms all baselines, achieves cumulative rewards comparable to those of humans, and approximates human foraging behavior in eye movements and foraging biases within time-limited environments. Furthermore, stress tests on out-of-distribution tasks with novel targets, unseen values, and varying set sizes demonstrate the VF model's effective generalization. Our work offers valuable insights into the relationship between eye movements and decision-making, with our model serving as a powerful tool for further exploration of this connection. All data, code, and models will be made publicly available.
Abstract（参考訳）: 例えば、クォーターズ(0.25ドル)、ダイム(0.10ドル)、ニッケル(0.05ドル)、ペニー(0.01ドル)のコインのコレクションを検索すると、オブザーバーは複数のターゲットタイプの複数のインスタンスを探す。そのようなタスクでは、目標値とその有病率は、採食行動や眼球運動行動にどのように影響するか(例えば、稀なクォーターや一般的なニッケルを優先すべきか)。そこで我々は,人間の心理物理学実験を行い,人間は有能な報奨金者であることを明らかにした。眼の固定は平均的な報酬が高い地域へ引き起こされ、固定期間はより価値の高い目標に対して長くなり、累積的な報酬はチャンスを超え、最適な捕食者の上限に近づいた。人間の意思決定過程を探索するために,強化学習を用いて学習したトランスフォーマーベースビジュアルフォアガー(VF)モデルを開発した。我々のVFモデルは、一連のターゲット、対応する値、検索イメージを入力として取り、葉緑的視覚を用いて画像を処理し、各固定アイテムを収集するかどうかの判断とともに、一連の眼球運動を生成する。我々のモデルは、すべてのベースラインを上回り、人間のものと同等の累積報酬を達成し、眼球運動における人間の捕食行動と時間制限環境における捕食バイアスを近似する。さらに、新しい目標、目に見えない値、および様々なセットサイズを持つ分布外タスクのストレステストは、VFモデルの効果的な一般化を示している。我々の研究は、眼球運動と意思決定の関係に関する貴重な洞察を与え、我々のモデルは、このつながりをさらに探求するための強力なツールとなる。すべてのデータ、コード、モデルは公開されます。

関連論文リスト

Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。我々は500人以上の参加者から行動データの35万件の試行を収集した。次に、一般的な視覚モデルの性能を評価する。
論文参考訳（メタデータ） (2024-09-09T17:59:13Z)
Neural feels with neural fields: Visuo-tactile perception for in-hand manipulation [57.60490773016364]
マルチフィンガーハンドの視覚と触覚を組み合わせることで,手動操作時の物体の姿勢と形状を推定する。提案手法であるNeuralFeelsは,ニューラルネットワークをオンラインで学習することでオブジェクトの形状を符号化し,ポーズグラフ問題を最適化して共同で追跡する。私たちの結果は、タッチが少なくとも、洗練され、そして最も最良のものは、手動操作中に視覚的推定を曖昧にすることを示しています。
論文参考訳（メタデータ） (2023-12-20T22:36:37Z)
What Makes Pre-Trained Visual Representations Successful for Robust Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文参考訳（メタデータ） (2023-11-03T18:09:08Z)
H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding Object Articulations from Interactions [62.510951695174604]
The Hypothesize, Simulate, Act, Update, and Repeat (H-SAUR) is a probabilistic generative framework that generated hypotheses about objects articulate given input observed。提案手法は,現在最先端のオブジェクト操作フレームワークよりも優れていることを示す。我々は、学習に基づく視覚モデルから学習前の学習を統合することにより、H-SAURのテスト時間効率をさらに向上する。
論文参考訳（メタデータ） (2022-10-22T18:39:33Z)
One-Shot Object Affordance Detection in the Wild [76.46484684007706]
Affordance Detectionは、画像内のオブジェクトの潜在的なアクション可能性を特定することを指す。我々は、人間の行動目的を推定し、それを転送して、すべての候補画像から共通価格を検出するワンショットアフォーダンス検出ネットワーク(OSAD-Net)を考案する。複雑なシーンと豊富なアノテーションによって、当社のPADv2データセットは、アベイランス検出メソッドをベンチマークするためのテストベッドとして使用することができます。
論文参考訳（メタデータ） (2021-08-08T14:53:10Z)
Goal-Directed Planning by Reinforcement Learning and Active Inference [16.694117274961016]
ベイジアン推論を用いた新たな意思決定フレームワークを提案する。ゴール指向の振る舞いは、計画によって$z$の後方分布から決定される。本稿では,カメラ観測と連続運動動作を用いたセンサモレータナビゲーションタスクの実験により,提案手法の有効性を実証する。
論文参考訳（メタデータ） (2021-06-18T06:41:01Z)
TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文参考訳（メタデータ） (2021-04-08T20:01:00Z)
What Can You Learn from Your Muscles? Learning Visual Representation from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文参考訳（メタデータ） (2020-10-16T17:46:53Z)
Appearance Consensus Driven Self-Supervised Human Mesh Recovery [67.20942777949793]
単眼画像から人間のポーズや形状を推定する自己教師付きメッシュ回復フレームワークを提案する。標準モデルに基づく3次元ポーズ推定ベンチマークの最先端結果を得る。その結果、色付きメッシュ予測により、ポーズや形状推定以外にも、さまざまな外観関連タスクにフレームワークの使用が開放される。
論文参考訳（メタデータ） (2020-08-04T05:40:39Z)
Diversity in Action: General-Sum Multi-Agent Continuous Inverse Optimal Control [12.771478252695399]
上記の全ての点に対処するゲーム理論法を提案する。 AV に使われている多くの既存手法と比較して,1) 完全通信を必要としない,2) エージェントごとの報奨が可能である。我々の実験は、これらのより現実的な仮定が、期待される現実世界の行動によく一致する、質的かつ定量的に異なる報酬予測と将来の行動予測をもたらすことを示した。
論文参考訳（メタデータ） (2020-04-27T09:53:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。