論文の概要: Anticipating Next Active Objects for Egocentric Videos
- arxiv url: http://arxiv.org/abs/2302.06358v3
- Date: Sat, 20 May 2023 19:17:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 04:09:36.990440
- Title: Anticipating Next Active Objects for Egocentric Videos
- Title(参考訳): エゴセントリックビデオのための次のアクティブオブジェクトの予測
- Authors: Sanket Thakur, Cigdem Beyan, Pietro Morerio, Vittorio Murino and
Alessio Del Bue
- Abstract要約: 本稿では,エゴセントリックなビデオクリップに対して,次のアクティブオブジェクトの位置を将来予測する問題に対処する。
本稿では,自己中心型クリップ内の次のアクティブオブジェクトを識別し,特定するためのトランスフォーマーベースの自己認識フレームワークを提案する。
- 参考スコア(独自算出の注目度): 45.60789439017625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the problem of anticipating the next-active-object
location in the future, for a given egocentric video clip where the contact
might happen, before any action takes place. The problem is considerably hard,
as we aim at estimating the position of such objects in a scenario where the
observed clip and the action segment are separated by the so-called ``time to
contact'' (TTC) segment. Many methods have been proposed to anticipate the
action of a person based on previous hand movements and interactions with the
surroundings. However, there have been no attempts to investigate the next
possible interactable object, and its future location with respect to the
first-person's motion and the field-of-view drift during the TTC window. We
define this as the task of Anticipating the Next ACTive Object (ANACTO). To
this end, we propose a transformer-based self-attention framework to identify
and locate the next-active-object in an egocentric clip.
We benchmark our method on three datasets: EpicKitchens-100, EGTEA+ and
Ego4D. We also provide annotations for the first two datasets. Our approach
performs best compared to relevant baseline methods. We also conduct ablation
studies to understand the effectiveness of the proposed and baseline methods on
varying conditions. Code and ANACTO task annotations will be made available
upon paper acceptance.
- Abstract(参考訳): 本稿では, アクションが発生する前に, 接触する可能性のある自発的映像クリップに対して, 今後, 次の活動対象位置を予測できる問題に対処する。
観察されたクリップとアクションセグメントがいわゆる「コンタクトする時間」(ttc)セグメントで分離されるシナリオにおいて、このようなオブジェクトの位置を推定することを目的としているため、この問題はかなり難しい。
過去の手の動きや周囲との相互作用に基づく行動を予測するために,多くの手法が提案されている。
しかし、ttcウィンドウの1人目の動きと視野ドリフトに関して、次の相互作用可能な物体と将来の位置について調査する試みは行われていない。
我々はこれを次の活動対象(ANACTO)を予測するタスクとして定義する。
そこで本稿では,自己中心型クリップ内の次のアクティブオブジェクトを識別し,特定するトランスフォーマーベースの自己認識フレームワークを提案する。
EpicKitchens-100, EGTEA+, Ego4Dの3つのデータセットでベンチマークを行った。
最初の2つのデータセットに対するアノテーションも提供します。
我々のアプローチは、関連するベースライン手法と比較して最もうまく機能する。
また,提案法とベースライン法の有効性を理解するため,アブレーション実験を行った。
コードとANACTOタスクアノテーションは、論文の受理時に利用可能になる。
関連論文リスト
- 3D-Aware Instance Segmentation and Tracking in Egocentric Videos [107.10661490652822]
エゴセントリックなビデオは、3Dシーンの理解にユニークな課題を提示する。
本稿では,一対一のビデオにおけるインスタンスのセグメンテーションとトラッキングに対する新しいアプローチを提案する。
空間的および時間的手がかりを取り入れることで、最先端の2D手法と比較して優れた性能が得られる。
論文 参考訳(メタデータ) (2024-08-19T10:08:25Z) - Short-term Object Interaction Anticipation with Disentangled Object Detection @ Ego4D Short Term Object Interaction Anticipation Challenge [11.429137967096935]
エゴセントリックなビデオ分析では,短期的な物体相互作用の予測が重要な課題である。
提案手法であるSOIA-DODは,1)アクティブオブジェクトの検出,2)インタラクションの分類とタイミングの予測に効果的に分解する。
提案手法は,まず,事前学習したYOLOv9を微調整することにより,エゴセントリックビデオの最終フレームにおける潜在能動物体を検知する。
論文 参考訳(メタデータ) (2024-07-08T08:13:16Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Leveraging Next-Active Objects for Context-Aware Anticipation in
Egocentric Videos [31.620555223890626]
短期オブジェクト間相互作用予測(STA)の問題点について検討する。
本稿では,マルチモーダル・エンド・ツー・エンド・トランスフォーマー・ネットワークであるNAOGATを提案する。
我々のモデルは2つの異なるデータセット上で既存の手法より優れている。
論文 参考訳(メタデータ) (2023-08-16T12:07:02Z) - Learning Fine-grained View-Invariant Representations from Unpaired
Ego-Exo Videos via Temporal Alignment [71.16699226211504]
我々は,エゴセントリックな映像とエゴセントリックな映像を時間内に整列させることにより,視点に不変なきめ細かいアクション特徴を学習することを提案する。
そこで本研究では,2つの鍵設計を持つ自己教師型埋め込み手法であるAE2を提案する。
評価のために,エゴ・エクソ・コンテキストにおけるきめ細かい映像理解のためのベンチマークを構築した。
論文 参考訳(メタデータ) (2023-06-08T19:54:08Z) - Enhancing Next Active Object-based Egocentric Action Anticipation with
Guided Attention [45.60789439017625]
個人ビデオにおける短期的行動予測(STA)は難しい課題である。
本稿では,オブジェクト間のガイド付きアテンション機構を適用した新しいアプローチを提案する。
提案手法であるGANOは,マルチモーダル,エンドツーエンド,シングルトランスベースのネットワークである。
論文 参考訳(メタデータ) (2023-05-22T11:56:10Z) - Event-Free Moving Object Segmentation from Moving Ego Vehicle [88.33470650615162]
動的シーンにおけるオブジェクトセグメンテーション(MOS)の移動は、自律運転において重要で困難だが、未調査の研究テーマである。
ほとんどのセグメンテーション法は、光学フローマップから得られるモーションキューを利用する。
我々は,光学的フローに頼らずにリッチなモーションキューを提供する,より優れた映像理解のためのイベントカメラを活用することを提案する。
論文 参考訳(メタデータ) (2023-04-28T23:43:10Z) - StillFast: An End-to-End Approach for Short-Term Object Interaction Anticipation [14.188006024550257]
我々は,エゴセントリックな視点から,短期的な物体相互作用予測問題を考察した。
提案手法は静止画像と映像を同時に処理し,次のアクティブ物体を検出する。
本手法は,EGO4D短期オブジェクトインタラクション予測課題2022において,第1位にランクされている。
論文 参考訳(メタデータ) (2023-04-08T09:01:37Z) - Attentive and Contrastive Learning for Joint Depth and Motion Field
Estimation [76.58256020932312]
単眼視システムからシーンの3次元構造とともにカメラの動きを推定することは複雑な作業である。
モノクロ映像からの3次元物体運動場推定のための自己教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:45:01Z) - Motion Guided Attention Fusion to Recognize Interactions from Videos [40.1565059238891]
ビデオからの細かいインタラクションを認識するためのデュアルパスアプローチを提案する。
動作経路のボトムアップ特徴と物体検出から捉えた特徴を融合させて、動作の時間的側面を学習する。
提案手法は外見を効果的に一般化し,アクターがこれまで見つからなかった物体と相互作用する動作を認識する。
論文 参考訳(メタデータ) (2021-04-01T17:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。