論文の概要: A modular framework for object-based saccadic decisions in dynamic
scenes
- arxiv url: http://arxiv.org/abs/2106.06073v1
- Date: Thu, 10 Jun 2021 22:28:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-14 14:16:41.489919
- Title: A modular framework for object-based saccadic decisions in dynamic
scenes
- Title(参考訳): 動的シーンにおけるオブジェクトベースのサスカディック決定のためのモジュラーフレームワーク
- Authors: Nicolas Roth, Pia Bideau, Olaf Hellwich, Martin Rolfs, Klaus Obermayer
- Abstract要約: 動的実世界のシーンにおける人間の眼球運動挙動をシミュレーションするための新しいモデルを提案する。
我々は、この活発なシーン探索をシーケンシャルな意思決定プロセスとしてモデル化する。
可能な選択ごとに、モデルは時間とともにエビデンスを統合し、エビデンスが決定しきい値を越えるとすぐに決定(サッカディック・アイ・ムーブメント)がトリガーされる。
- 参考スコア(独自算出の注目度): 5.7047887413125276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visually exploring the world around us is not a passive process. Instead, we
actively explore the world and acquire visual information over time. Here, we
present a new model for simulating human eye-movement behavior in dynamic
real-world scenes. We model this active scene exploration as a sequential
decision making process. We adapt the popular drift-diffusion model (DDM) for
perceptual decision making and extend it towards multiple options, defined by
objects present in the scene. For each possible choice, the model integrates
evidence over time and a decision (saccadic eye movement) is triggered as soon
as evidence crosses a decision threshold. Drawing this explicit connection
between decision making and object-based scene perception is highly relevant in
the context of active viewing, where decisions are made continuously while
interacting with an external environment. We validate our model with a
carefully designed ablation study and explore influences of our model
parameters. A comparison on the VidCom dataset supports the plausibility of the
proposed approach.
- Abstract(参考訳): 私たちの周りの世界を視覚的に探索することは受動的プロセスではありません。
代わりに、私たちは積極的に世界を探索し、時間とともに視覚情報を取得します。
本稿では,人間の眼球運動を動的実世界のシーンでシミュレートする新しいモデルを提案する。
この活動的なシーン探索を逐次的な意思決定プロセスとしてモデル化する。
我々は,人気のあるドリフト拡散モデル(ddm)を知覚的意思決定に適用し,シーンに存在するオブジェクトによって定義される複数の選択肢へと拡張する。
可能な選択ごとに、モデルがエビデンスを時間とともに統合し、証拠が決定しきい値を越えると、意思決定(サッカディック眼球運動)がトリガーされる。
意思決定とオブジェクトベースのシーン知覚の間の明示的な関係は、外部環境と対話しながら意思決定を継続するアクティブな視聴の文脈で非常に関係している。
モデルを注意深く設計したアブレーション研究で検証し,モデルパラメータの影響について検討した。
VidComデータセットの比較は、提案手法の妥当性を支持する。
関連論文リスト
- Appearance-based Refinement for Object-Centric Motion Segmentation [95.80420062679104]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では, 正確な流量予測マスクを模範として, 簡単な選択機構を用いる。
パフォーマンスは、DAVIS、YouTubeVOS、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - D2SLAM: Semantic visual SLAM based on the influence of Depth for Dynamic
environments [0.483420384410068]
一般化とシーン認識に欠ける動的要素を決定するための新しい手法を提案する。
我々は,幾何学的および意味的モジュールからの推定精度を向上するシーン深度情報を用いる。
その結果, 動的環境における正確な位置推定とマッピングを行う上で, 提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-10-16T22:13:59Z) - Spatio-Temporal Relation Learning for Video Anomaly Detection [35.59510027883497]
異常識別は、オブジェクトとシーンの関係に大きく依存する。
本稿では,ビデオ異常検出タスクに対処するための空間時間関係学習フレームワークを提案する。
3つの公開データセットで実験を行い、最先端手法よりも優れた性能を示し、本手法の有効性を実証した。
論文 参考訳(メタデータ) (2022-09-27T02:19:31Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - Motion Prediction via Joint Dependency Modeling in Phase Space [40.54430409142653]
我々は、運動解剖学の明示的な事前知識を活用するために、新しい畳み込みニューラルモデルを導入する。
次に,個々の関節機能間の暗黙的関係を学習するグローバル最適化モジュールを提案する。
本手法は,大規模な3次元人体動作ベンチマークデータセットを用いて評価する。
論文 参考訳(メタデータ) (2022-01-07T08:30:01Z) - Revisiting spatio-temporal layouts for compositional action recognition [63.04778884595353]
私たちは、アクション認識にオブジェクト中心のアプローチを取ります。
本論文の主な焦点は、合成/ファウショット動作認識である。
レイアウトモデルとの融合による外観モデルの性能向上を実証する。
論文 参考訳(メタデータ) (2021-11-02T23:04:39Z) - Dynamic Modeling of Hand-Object Interactions via Tactile Sensing [133.52375730875696]
本研究では,高分解能な触覚グローブを用いて,多種多様な物体に対して4種類のインタラクティブな動作を行う。
我々は,クロスモーダル学習フレームワーク上にモデルを構築し,視覚処理パイプラインを用いてラベルを生成し,触覚モデルを監督する。
この研究は、高密度触覚センシングによる手動物体相互作用における動的モデリングの一歩を踏み出す。
論文 参考訳(メタデータ) (2021-09-09T16:04:14Z) - MoCo-Flow: Neural Motion Consensus Flow for Dynamic Humans in Stationary
Monocular Cameras [98.40768911788854]
4次元連続時間変動関数を用いて動的シーンをモデル化する表現であるMoCo-Flowを紹介する。
私たちの研究の中心には、運動フロー上の運動コンセンサス正規化によって制約される、新しい最適化の定式化がある。
複雑度の異なる人間の動きを含む複数のデータセット上でMoCo-Flowを広範囲に評価した。
論文 参考訳(メタデータ) (2021-06-08T16:03:50Z) - Where and When: Space-Time Attention for Audio-Visual Explanations [42.093794819606444]
音声と視覚データの相乗的なダイナミクスを空間と時間の両方で明らかにする、新しい時空注目ネットワークを提案する。
本モデルでは,音声・視覚的映像イベントの予測を可能とし,関連する視覚的手がかりがどこに現れるのかをローカライズすることで,その決定を正当化する。
論文 参考訳(メタデータ) (2021-05-04T14:16:55Z) - Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。
本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-03-29T14:37:35Z) - Multi-agent Trajectory Prediction with Fuzzy Query Attention [15.12743751614964]
複数のエージェントを持つシーンの軌道予測は、交通予測、歩行者追跡、経路計画といった多くの領域において難しい問題である。
この課題に対処する一般的なアーキテクチャとして、運動の重要な帰納バイアス、すなわち慣性、相対運動、意図、相互作用をモデル化する。
論文 参考訳(メタデータ) (2020-10-29T19:12:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。