論文の概要: A Robotics-Inspired Scanpath Model Reveals the Importance of Uncertainty and Semantic Object Cues for Gaze Guidance in Dynamic Scenes
- arxiv url: http://arxiv.org/abs/2408.01322v1
- Date: Fri, 2 Aug 2024 15:20:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 13:07:59.451707
- Title: A Robotics-Inspired Scanpath Model Reveals the Importance of Uncertainty and Semantic Object Cues for Gaze Guidance in Dynamic Scenes
- Title(参考訳): ロボットにインスパイアされたスキャンパスモデルによるダイナミックシーンにおける迷路誘導のための不確かさとセマンティックなオブジェクトキューの重要性
- Authors: Vito Mengers, Nicolas Roth, Oliver Brock, Klaus Obermayer, Martin Rolfs,
- Abstract要約: 本研究では,動的実世界のシーンに対する物体のセグメンテーションと視線挙動をシミュレートするメカニスティックモデルを提案する。
本モデルでは,現在のシーンセグメンテーションをオブジェクトベースのサスカディック決定に用いながら,そのシーンセグメンテーションを洗練させる。
このモデルでは,サスカディック・モーメントや事前サカディック・アテンションなどの拡張が可能であることを示す。
- 参考スコア(独自算出の注目度): 8.64158103104882
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How we perceive objects around us depends on what we actively attend to, yet our eye movements depend on the perceived objects. Still, object segmentation and gaze behavior are typically treated as two independent processes. Drawing on an information processing pattern from robotics, we present a mechanistic model that simulates these processes for dynamic real-world scenes. Our image-computable model uses the current scene segmentation for object-based saccadic decision-making while using the foveated object to refine its scene segmentation recursively. To model this refinement, we use a Bayesian filter, which also provides an uncertainty estimate for the segmentation that we use to guide active scene exploration. We demonstrate that this model closely resembles observers' free viewing behavior, measured by scanpath statistics, including foveation duration and saccade amplitude distributions used for parameter fitting and higher-level statistics not used for fitting. These include how object detections, inspections, and returns are balanced and a delay of returning saccades without an explicit implementation of such temporal inhibition of return. Extensive simulations and ablation studies show that uncertainty promotes balanced exploration and that semantic object cues are crucial to form the perceptual units used in object-based attention. Moreover, we show how our model's modular design allows for extensions, such as incorporating saccadic momentum or pre-saccadic attention, to further align its output with human scanpaths.
- Abstract(参考訳): 周囲の物体をどう知覚するかは、積極的に参加するものによって異なりますが、視線の動きは知覚対象に依存します。
それでも、物体のセグメンテーションと視線行動は2つの独立したプロセスとして扱われる。
ロボット工学からの情報処理パターンを描画し、これらの過程を動的現実世界のシーンにシミュレートするメカニスティックモデルを提案する。
画像計算可能なモデルでは,現在のシーンセグメンテーションをオブジェクトベースのサスカディック決定に用いながら,そのシーンセグメンテーションを再帰的に洗練する。
この改良をモデル化するためにベイズフィルタを使用し、アクティブなシーン探索を導くために使用するセグメンテーションに対する不確実性の推定も提供する。
本研究では,このモデルが観測者の自由視聴行動とよく似ていることを示す。例えば,パラメータフィッティングに使用されるフェーベーション時間やササード振幅分布,およびフィッティングに使用されていない高次統計量などである。
これには、オブジェクト検出、検査、返却のバランスの取れ方や、返却の時間的抑制の明示的な実装を伴わないササードの返却の遅れなどが含まれる。
広範囲にわたるシミュレーションとアブレーション研究により、不確実性はバランスの取れた探索を促進し、セマンティック・オブジェクト・キューは、オブジェクトベースの注意に使用される知覚単位を形成するのに不可欠であることが示された。
さらに,本モデルでは,サスカディック・モーメントを組み込んだり,サカディック・アテンションをプリサカディック・アテンションに組み込んだりすることで,その出力を人間のスキャンパスと整合させることが可能であることを示す。
関連論文リスト
- Articulated Object Manipulation using Online Axis Estimation with SAM2-Based Tracking [59.87033229815062]
アーティキュレートされたオブジェクト操作は、オブジェクトの軸を慎重に考慮する必要がある、正確なオブジェクトインタラクションを必要とする。
従来の研究では、対話的な知覚を用いて関節のある物体を操作するが、通常、オープンループのアプローチは相互作用のダイナミクスを見渡すことに悩まされる。
本稿では,対話的知覚と3次元点雲からのオンライン軸推定を統合したクローズドループパイプラインを提案する。
論文 参考訳(メタデータ) (2024-09-24T17:59:56Z) - DeTra: A Unified Model for Object Detection and Trajectory Forecasting [68.85128937305697]
提案手法は,2つのタスクの結合を軌道修正問題として定式化する。
この統合タスクに対処するために、オブジェクトの存在, ポーズ, マルチモーダルな将来の振る舞いを推測する精細化変換器を設計する。
実験では、我々のモデルはArgoverse 2 Sensor and Openデータセットの最先端性よりも優れています。
論文 参考訳(メタデータ) (2024-06-06T18:12:04Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Active Sensing with Predictive Coding and Uncertainty Minimization [0.0]
2つの生物学的計算から着想を得たエンボディード探索のためのエンドツーエンドの手法を提案する。
まず,迷路ナビゲーションタスクによるアプローチを実演し,環境の遷移分布と空間的特徴を明らかにする。
本モデルでは,視覚シーンを効率的に分類するための探索によって,教師なし表現を構築する。
論文 参考訳(メタデータ) (2023-07-02T21:14:49Z) - Spatio-Temporal Relation Learning for Video Anomaly Detection [35.59510027883497]
異常識別は、オブジェクトとシーンの関係に大きく依存する。
本稿では,ビデオ異常検出タスクに対処するための空間時間関係学習フレームワークを提案する。
3つの公開データセットで実験を行い、最先端手法よりも優れた性能を示し、本手法の有効性を実証した。
論文 参考訳(メタデータ) (2022-09-27T02:19:31Z) - Neural Motion Fields: Encoding Grasp Trajectories as Implicit Value
Functions [65.84090965167535]
本稿では,ニューラルネットワークによってパラメータ化される暗黙的値関数として,オブジェクト点群と相対的タスク軌跡の両方を符号化する新しいオブジェクト表現であるNeural Motion Fieldsを提案する。
このオブジェクト中心表現は、SE(3)空間上の連続分布をモデル化し、サンプリングベースのMPCを利用して、この値関数を最適化することで、反応的に把握することができる。
論文 参考訳(メタデータ) (2022-06-29T18:47:05Z) - Information-Theoretic Odometry Learning [83.36195426897768]
生体計測推定を目的とした学習動機付け手法のための統合情報理論フレームワークを提案する。
提案フレームワークは情報理論言語の性能評価と理解のためのエレガントなツールを提供する。
論文 参考訳(メタデータ) (2022-03-11T02:37:35Z) - A modular framework for object-based saccadic decisions in dynamic
scenes [5.7047887413125276]
動的実世界のシーンにおける人間の眼球運動挙動をシミュレーションするための新しいモデルを提案する。
我々は、この活発なシーン探索をシーケンシャルな意思決定プロセスとしてモデル化する。
可能な選択ごとに、モデルは時間とともにエビデンスを統合し、エビデンスが決定しきい値を越えるとすぐに決定(サッカディック・アイ・ムーブメント)がトリガーされる。
論文 参考訳(メタデータ) (2021-06-10T22:28:45Z) - Self-supervised Segmentation via Background Inpainting [96.10971980098196]
移動可能なカメラで撮影された単一の画像で、自己教師付き検出とセグメンテーションのアプローチを導入する。
我々は、提案に基づくセグメンテーションネットワークのトレーニングに利用する自己教師付き損失関数を利用する。
本手法は,標準ベンチマークから視覚的に切り離された画像の人間の検出とセグメント化に応用し,既存の自己監督手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-11-11T08:34:40Z) - Unsupervised Video Decomposition using Spatio-temporal Iterative
Inference [31.97227651679233]
マルチオブジェクトシーンの分解は、学習において急速に進化する問題である。
色情報のないモデルでも精度が高いことを示す。
本稿では, モデルの分解, セグメント化予測能力を実証し, いくつかのベンチマークデータセットにおいて, 最先端のモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-25T22:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。