論文の概要: Simulating Human Audiovisual Search Behavior
- arxiv url: http://arxiv.org/abs/2602.02790v1
- Date: Mon, 02 Feb 2026 20:47:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.079602
- Title: Simulating Human Audiovisual Search Behavior
- Title(参考訳): 人間の聴覚的探索行動のシミュレーション
- Authors: Hyunsung Cho, Xuejing Luo, Byungjoo Lee, David Lindlbauer, Antti Oulasvirta,
- Abstract要約: 聴覚と視覚の手がかりに基づく標的の配置には、不確実性の下での努力、時間、精度のバランスが必要である。
具体的音声視覚探索の計算モデルであるSennautを提示する。
音声視覚的検索のシミュレーションは,コストと認知負荷を最小限に抑える設計を示唆する。
- 参考スコア(独自算出の注目度): 35.52238000281623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Locating a target based on auditory and visual cues$\unicode{x2013}$such as finding a car in a crowded parking lot or identifying a speaker in a virtual meeting$\unicode{x2013}$requires balancing effort, time, and accuracy under uncertainty. Existing models of audiovisual search often treat perception and action in isolation, overlooking how people adaptively coordinate movement and sensory strategies. We present Sensonaut, a computational model of embodied audiovisual search. The core assumption is that people deploy their body and sensory systems in ways they believe will most efficiently improve their chances of locating a target, trading off time and effort under perceptual constraints. Our model formulates this as a resource-rational decision-making problem under partial observability. We validate the model against newly collected human data, showing that it reproduces both adaptive scaling of search time and effort under task complexity, occlusion, and distraction, and characteristic human errors. Our simulation of human-like resource-rational search informs the design of audiovisual interfaces that minimize search cost and cognitive load.
- Abstract(参考訳): 例えば、混雑した駐車場で車を見つけたり、仮想ミーティングでスピーカーを特定できる$\unicode{x2013}$requires balance effort, time, and accuracy。
既存の視覚探索のモデルは、人々が動きと感覚の戦略を適応的に調整する方法を見越して、独立して知覚と行動を扱うことが多い。
本稿では,組込み音声視覚探索の計算モデルであるSensonautを紹介する。
中心となる前提は、人々が自分の身体と感覚システムを、知覚的制約の下で、目標の特定、時間と労力のトレーディングの可能性を最も効率的に改善する、と信じている方法で展開することである。
本モデルでは, 部分観測可能条件下での資源規制決定問題として定式化している。
新たに収集した人的データに対してモデルを検証した結果,タスクの複雑度,排他的,注意散逸といった条件下での探索時間と労力の適応的スケーリングを再現し,人的エラーを特徴付けることがわかった。
提案手法は, 探索コストと認知負荷を最小化する音声視覚インタフェースの設計を, 人為的な資源構成探索のシミュレーションにより支援する。
関連論文リスト
- Seeing Sound, Hearing Sight: Uncovering Modality Bias and Conflict of AI models in Sound Localization [15.460138469890042]
人間はAIを一貫して上回り、聴覚情報に頼ることによって、対立や欠落した視覚に対して優れたレジリエンスを示す。
本稿では,3次元シミュレーションにより生成したステレオオーディオ画像データセットを用いて,神経科学にインスパイアされたモデルであるEchoPinを提案する。
論文 参考訳(メタデータ) (2025-05-16T13:13:25Z) - Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - Computing a human-like reaction time metric from stable recurrent vision
models [11.87006916768365]
我々は,刺激計算可能なタスク最適化モデルから,反応時間の計算量を構築するための汎用方法論をスケッチする。
評価基準は,4つの異なる視覚的意思決定タスクの刺激操作において,人間の反応時間のパターンと一致していることを示す。
この研究は、他の様々な認知タスクの文脈において、モデルと人間の視覚戦略の時間的アライメントを探索する方法を開拓する。
論文 参考訳(メタデータ) (2023-06-20T14:56:02Z) - Egocentric Audio-Visual Object Localization [51.434212424829525]
本研究では,エゴモーションを明示的に処理する時空間アグリゲーションモジュールを提案する。
エゴモーションの効果は、時間的幾何変換を推定し、それを利用して視覚的表現を更新することによって緩和される。
視覚的に指示された音声表現をアンタングルすることで、モーダルな局所化の堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-03-23T17:43:11Z) - Using Features at Multiple Temporal and Spatial Resolutions to Predict
Human Behavior in Real Time [2.955419572714387]
本研究では,高分解能・低分解能な空間情報と時間情報を統合し,人間の行動をリアルタイムで予測する手法を提案する。
本モデルでは,3つのネットワークが同時にトレーニングされた動作予測のためのニューラルネットワークを用いて,高分解能・低分解能特徴抽出のためのニューラルネットワークを構成する。
論文 参考訳(メタデータ) (2022-11-12T18:41:33Z) - Target-absent Human Attention [44.10971508325032]
探索終端問題に対処する最初のデータ駆動型計算モデルを提案する。
我々は、新しい状態表現を用いて、視聴者が固定によって取得する内部知識を表現する。
我々は,COCO-Search18データセット上での人的目標依存探索行動の予測における技術の現状を改善した。
論文 参考訳(メタデータ) (2022-07-04T02:32:04Z) - Play it by Ear: Learning Skills amidst Occlusion through Audio-Visual
Imitation Learning [62.83590925557013]
我々は視覚と音声の入力から、部分的に観察された操作タスクのセットを学習する。
提案システムは,遠隔操作による実演とオンラインファインタニングを併用することで,これらの課題を学習する。
模擬課題の集合において、我々のシステムは音声を使うことの恩恵を受けており、オンライン介入を用いることで、オフライン模倣学習の成功率を20%向上できることがわかった。
論文 参考訳(メタデータ) (2022-05-30T04:52:58Z) - Noisy Agents: Self-supervised Exploration by Predicting Auditory Events [127.82594819117753]
本稿では, エージェントが行動の因果的影響を理解することを奨励する, 強化学習(Reinforcement Learning, RL)の本質的なモチベーションを提案する。
ニューラルネットワークを用いて聴覚事象を予測し、予測誤差を本質的な報奨として利用し、RL探索を誘導する。
Atariゲームの実験結果から、我々の新しい本質的な動機は、最先端のベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2020-07-27T17:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。