Fugu-MT 論文翻訳(概要): A modular framework for object-based saccadic decisions in dynamic scenes

論文の概要: A modular framework for object-based saccadic decisions in dynamic scenes

arxiv url: http://arxiv.org/abs/2106.06073v1
Date: Thu, 10 Jun 2021 22:28:45 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-14 14:16:41.489919
Title: A modular framework for object-based saccadic decisions in dynamic scenes
Title（参考訳）: 動的シーンにおけるオブジェクトベースのサスカディック決定のためのモジュラーフレームワーク
Authors: Nicolas Roth, Pia Bideau, Olaf Hellwich, Martin Rolfs, Klaus Obermayer
Abstract要約: 動的実世界のシーンにおける人間の眼球運動挙動をシミュレーションするための新しいモデルを提案する。我々は、この活発なシーン探索をシーケンシャルな意思決定プロセスとしてモデル化する。可能な選択ごとに、モデルは時間とともにエビデンスを統合し、エビデンスが決定しきい値を越えるとすぐに決定(サッカディック・アイ・ムーブメント)がトリガーされる。
参考スコア（独自算出の注目度）: 5.7047887413125276
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visually exploring the world around us is not a passive process. Instead, we actively explore the world and acquire visual information over time. Here, we present a new model for simulating human eye-movement behavior in dynamic real-world scenes. We model this active scene exploration as a sequential decision making process. We adapt the popular drift-diffusion model (DDM) for perceptual decision making and extend it towards multiple options, defined by objects present in the scene. For each possible choice, the model integrates evidence over time and a decision (saccadic eye movement) is triggered as soon as evidence crosses a decision threshold. Drawing this explicit connection between decision making and object-based scene perception is highly relevant in the context of active viewing, where decisions are made continuously while interacting with an external environment. We validate our model with a carefully designed ablation study and explore influences of our model parameters. A comparison on the VidCom dataset supports the plausibility of the proposed approach.
Abstract（参考訳）: 私たちの周りの世界を視覚的に探索することは受動的プロセスではありません。代わりに、私たちは積極的に世界を探索し、時間とともに視覚情報を取得します。本稿では,人間の眼球運動を動的実世界のシーンでシミュレートする新しいモデルを提案する。この活動的なシーン探索を逐次的な意思決定プロセスとしてモデル化する。我々は,人気のあるドリフト拡散モデル(ddm)を知覚的意思決定に適用し,シーンに存在するオブジェクトによって定義される複数の選択肢へと拡張する。可能な選択ごとに、モデルがエビデンスを時間とともに統合し、証拠が決定しきい値を越えると、意思決定(サッカディック眼球運動)がトリガーされる。意思決定とオブジェクトベースのシーン知覚の間の明示的な関係は、外部環境と対話しながら意思決定を継続するアクティブな視聴の文脈で非常に関係している。モデルを注意深く設計したアブレーション研究で検証し,モデルパラメータの影響について検討した。 VidComデータセットの比較は、提案手法の妥当性を支持する。

関連論文リスト

From Sight to Insight: Unleashing Eye-Tracking in Weakly Supervised Video Salient Object Detection [60.11169426478452]
本稿では,弱い監督下での健全な物体の検出を支援するために,固定情報を導入することを目的とする。特徴学習過程における位置と意味のガイダンスを提供するために,位置と意味の埋め込み (PSE) モジュールを提案する。 Intra-Inter Mixed Contrastive (MCII)モデルは、弱い監督下での時間的モデリング能力を改善する。
論文参考訳（メタデータ） (2025-06-30T05:01:40Z)
Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文参考訳（メタデータ） (2025-06-02T17:57:06Z)
Uncertainty-Guided Appearance-Motion Association Network for Out-of-Distribution Action Detection [4.938957922033169]
セマンティックシフトでテストサンプルを検出し、拒否するOOD(Out-of-Distribution)検出ターゲット。我々は,新しい不確実性誘導外観運動ネットワーク(UAAN)を提案する。 UAANは最先端の手法をかなりの差で打ち負かし、その効果を実証する。
論文参考訳（メタデータ） (2024-09-16T02:53:49Z)
A Robotics-Inspired Scanpath Model Reveals the Importance of Uncertainty and Semantic Object Cues for Gaze Guidance in Dynamic Scenes [8.64158103104882]
本研究では,動的実世界のシーンに対する物体のセグメンテーションと視線挙動をシミュレートするメカニスティックモデルを提案する。本モデルでは,現在のシーンセグメンテーションをオブジェクトベースのサスカディック決定に用いながら,そのシーンセグメンテーションを洗練させる。このモデルでは,サスカディック・モーメントや事前サカディック・アテンションなどの拡張が可能であることを示す。
論文参考訳（メタデータ） (2024-08-02T15:20:34Z)
Gear-NeRF: Free-Viewpoint Rendering and Tracking with Motion-aware Spatio-Temporal Sampling [70.34875558830241]
本研究では,シーンをレンダリングする動的領域の階層化モデリングを可能にする意味的セマンティックギアに基づく,時間的(4D)埋め込みの学習方法を提案する。同時に、ほぼ無償で、当社のトラッキングアプローチは、既存のNeRFベースのメソッドでまだ達成されていない機能である、自由視点(free-view of interest)を可能にします。
論文参考訳（メタデータ） (2024-06-06T03:37:39Z)
Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文参考訳（メタデータ） (2023-12-18T18:59:51Z)
D2SLAM: Semantic visual SLAM based on the influence of Depth for Dynamic environments [0.483420384410068]
一般化とシーン認識に欠ける動的要素を決定するための新しい手法を提案する。我々は,幾何学的および意味的モジュールからの推定精度を向上するシーン深度情報を用いる。その結果, 動的環境における正確な位置推定とマッピングを行う上で, 提案手法の有効性が示された。
論文参考訳（メタデータ） (2022-10-16T22:13:59Z)
Spatio-Temporal Relation Learning for Video Anomaly Detection [35.59510027883497]
異常識別は、オブジェクトとシーンの関係に大きく依存する。本稿では,ビデオ異常検出タスクに対処するための空間時間関係学習フレームワークを提案する。 3つの公開データセットで実験を行い、最先端手法よりも優れた性能を示し、本手法の有効性を実証した。
論文参考訳（メタデータ） (2022-09-27T02:19:31Z)
Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文参考訳（メタデータ） (2022-03-18T21:13:56Z)
Revisiting spatio-temporal layouts for compositional action recognition [63.04778884595353]
私たちは、アクション認識にオブジェクト中心のアプローチを取ります。本論文の主な焦点は、合成/ファウショット動作認識である。レイアウトモデルとの融合による外観モデルの性能向上を実証する。
論文参考訳（メタデータ） (2021-11-02T23:04:39Z)
Dynamic Modeling of Hand-Object Interactions via Tactile Sensing [133.52375730875696]
本研究では,高分解能な触覚グローブを用いて,多種多様な物体に対して4種類のインタラクティブな動作を行う。我々は,クロスモーダル学習フレームワーク上にモデルを構築し,視覚処理パイプラインを用いてラベルを生成し,触覚モデルを監督する。この研究は、高密度触覚センシングによる手動物体相互作用における動的モデリングの一歩を踏み出す。
論文参考訳（メタデータ） (2021-09-09T16:04:14Z)
Where and When: Space-Time Attention for Audio-Visual Explanations [42.093794819606444]
音声と視覚データの相乗的なダイナミクスを空間と時間の両方で明らかにする、新しい時空注目ネットワークを提案する。本モデルでは,音声・視覚的映像イベントの予測を可能とし,関連する視覚的手がかりがどこに現れるのかをローカライズすることで,その決定を正当化する。
論文参考訳（メタデータ） (2021-05-04T14:16:55Z)
Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文参考訳（メタデータ） (2021-03-29T14:37:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。