論文の概要: Leveraging Next-Active Objects for Context-Aware Anticipation in
Egocentric Videos
- arxiv url: http://arxiv.org/abs/2308.08303v3
- Date: Thu, 5 Oct 2023 11:05:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 11:22:21.952697
- Title: Leveraging Next-Active Objects for Context-Aware Anticipation in
Egocentric Videos
- Title(参考訳): エゴセントリックビデオにおける文脈認識予測のためのnext-active objectsの活用
- Authors: Sanket Thakur, Cigdem Beyan, Pietro Morerio, Vittorio Murino, Alessio
Del Bue
- Abstract要約: 短期オブジェクト間相互作用予測(STA)の問題点について検討する。
本稿では,マルチモーダル・エンド・ツー・エンド・トランスフォーマー・ネットワークであるNAOGATを提案する。
我々のモデルは2つの異なるデータセット上で既存の手法より優れている。
- 参考スコア(独自算出の注目度): 31.620555223890626
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Objects are crucial for understanding human-object interactions. By
identifying the relevant objects, one can also predict potential future
interactions or actions that may occur with these objects. In this paper, we
study the problem of Short-Term Object interaction anticipation (STA) and
propose NAOGAT (Next-Active-Object Guided Anticipation Transformer), a
multi-modal end-to-end transformer network, that attends to objects in observed
frames in order to anticipate the next-active-object (NAO) and, eventually, to
guide the model to predict context-aware future actions. The task is
challenging since it requires anticipating future action along with the object
with which the action occurs and the time after which the interaction will
begin, a.k.a. the time to contact (TTC). Compared to existing video modeling
architectures for action anticipation, NAOGAT captures the relationship between
objects and the global scene context in order to predict detections for the
next active object and anticipate relevant future actions given these
detections, leveraging the objects' dynamics to improve accuracy. One of the
key strengths of our approach, in fact, is its ability to exploit the motion
dynamics of objects within a given clip, which is often ignored by other
models, and separately decoding the object-centric and motion-centric
information. Through our experiments, we show that our model outperforms
existing methods on two separate datasets, Ego4D and EpicKitchens-100 ("Unseen
Set"), as measured by several additional metrics, such as time to contact, and
next-active-object localization. The code will be available upon acceptance.
- Abstract(参考訳): オブジェクトは、人間とオブジェクトの相互作用を理解するのに不可欠である。
関連するオブジェクトを特定することで、これらのオブジェクトで起こりうる潜在的な未来の相互作用やアクションを予測することもできる。
本稿では,短期的物体間相互作用予測 (sta) の問題について検討し,次にアクティブな物体 (nao) を予測し,最終的にモデルにコンテキスト認識の将来行動を予測するためのモデル誘導を行うマルチモーダル・エンドツーエンド・トランスフォーマーネットワークである naogat (next-active-object guided precipation transformer) を提案する。
このタスクは、アクションが発生するオブジェクトと、その相互作用が始まる時間、すなわち、接触する時間(ttc)とともに、将来のアクションを予測する必要があるため、難しい。
アクション予測のための既存のビデオモデリングアーキテクチャと比較して、NAOGATは、オブジェクトとグローバルシーンコンテキストの関係をキャプチャして、次のアクティブなオブジェクトの検出を予測し、これらの検出により関連する将来のアクションを予測する。
実際、我々のアプローチの重要な強みの1つは、与えられたクリップ内のオブジェクトの動作ダイナミクスを利用する能力です。
実験により,我々のモデルが既存の2つのデータセット(ego4dとepickitchens-100(unseen set))上の既存手法を上回っており,時間や接触,次にアクティブなオブジェクトのローカライズなど,いくつかの指標で測定した。
コードは受理後利用可能になる。
関連論文リスト
- Short-term Object Interaction Anticipation with Disentangled Object Detection @ Ego4D Short Term Object Interaction Anticipation Challenge [11.429137967096935]
エゴセントリックなビデオ分析では,短期的な物体相互作用の予測が重要な課題である。
提案手法であるSOIA-DODは,1)アクティブオブジェクトの検出,2)インタラクションの分類とタイミングの予測に効果的に分解する。
提案手法は,まず,事前学習したYOLOv9を微調整することにより,エゴセントリックビデオの最終フレームにおける潜在能動物体を検知する。
論文 参考訳(メタデータ) (2024-07-08T08:13:16Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Controllable Human-Object Interaction Synthesis [77.56877961681462]
本研究では,3次元シーンにおける同期物体の動きと人間の動きを生成するための制御可能な人間-物体相互作用合成(CHOIS)を提案する。
ここでは,高レベルな計画から効果的に抽出できるスタイルや意図を言語記述が通知し,シーン内の動きをグラウンド化する。
我々のモジュールは経路計画モジュールとシームレスに統合され、3D環境における長期的相互作用の生成を可能にします。
論文 参考訳(メタデータ) (2023-12-06T21:14:20Z) - Object-centric Video Representation for Long-term Action Anticipation [33.115854386196126]
主な動機は、オブジェクトが人間とオブジェクトの相互作用を認識し予測するための重要な手がかりを提供することである。
我々は、視覚言語事前学習モデルを利用して、オブジェクト中心のビデオ表現を構築することを提案する。
人間と物体の相互作用を認識し予測するために、Transformerベースのニューラルアーキテクチャを用いる。
論文 参考訳(メタデータ) (2023-10-31T22:54:31Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - Enhancing Next Active Object-based Egocentric Action Anticipation with
Guided Attention [45.60789439017625]
個人ビデオにおける短期的行動予測(STA)は難しい課題である。
本稿では,オブジェクト間のガイド付きアテンション機構を適用した新しいアプローチを提案する。
提案手法であるGANOは,マルチモーダル,エンドツーエンド,シングルトランスベースのネットワークである。
論文 参考訳(メタデータ) (2023-05-22T11:56:10Z) - Object-Centric Video Prediction via Decoupling of Object Dynamics and
Interactions [27.112210225969733]
本稿では,映像系列の構造を抽出し,オブジェクトのダイナミックスやインタラクションを視覚的観察からモデル化する,オブジェクト中心のビデオ予測タスクのための新しいフレームワークを提案する。
そこで本研究では,時間的ダイナミクスとオブジェクトの相互作用の処理を分離した2つのオブジェクト中心ビデオ予測器(OCVP)トランスフォーマモジュールを提案する。
実験では、OCVP予測器を用いたオブジェクト中心の予測フレームワークが、2つの異なるデータセットにおけるオブジェクト非依存のビデオ予測モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-23T08:29:26Z) - Anticipating Next Active Objects for Egocentric Videos [29.473527958651317]
本稿では,エゴセントリックなビデオクリップに対して,次のアクティブオブジェクトの位置を将来予測する問題に対処する。
本稿では,自己中心型クリップ内の次のアクティブオブジェクトを識別し,特定するためのトランスフォーマーベースの自己認識フレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-13T13:44:52Z) - H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding
Object Articulations from Interactions [62.510951695174604]
The Hypothesize, Simulate, Act, Update, and Repeat (H-SAUR) is a probabilistic generative framework that generated hypotheses about objects articulate given input observed。
提案手法は,現在最先端のオブジェクト操作フレームワークよりも優れていることを示す。
我々は、学習に基づく視覚モデルから学習前の学習を統合することにより、H-SAURのテスト時間効率をさらに向上する。
論文 参考訳(メタデータ) (2022-10-22T18:39:33Z) - Learn to Predict How Humans Manipulate Large-sized Objects from
Interactive Motions [82.90906153293585]
本稿では,動きデータと動的記述子を融合させるグラフニューラルネットワークHO-GCNを提案する。
動的記述子を消費するネットワークは、最先端の予測結果が得られ、未確認オブジェクトへのネットワークの一般化に役立つことを示す。
論文 参考訳(メタデータ) (2022-06-25T09:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。