論文の概要: FIction: 4D Future Interaction Prediction from Video
- arxiv url: http://arxiv.org/abs/2412.00932v1
- Date: Sun, 01 Dec 2024 18:44:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:45:33.293430
- Title: FIction: 4D Future Interaction Prediction from Video
- Title(参考訳): ビデオによる4次元インタラクション予測
- Authors: Kumar Ashutosh, Georgios Pavlakos, Kristen Grauman,
- Abstract要約: ビデオから4次元のインタラクション予測を導入する。
人間の活動のインプットビデオが与えられたら、その人が次に対話する3D位置のオブジェクトを予測することが目的だ。
提案手法は,従来の自己回帰的および(リフト)2次元ビデオモデルよりも大幅に優れていることを示す。
- 参考スコア(独自算出の注目度): 63.37136159797888
- License:
- Abstract: Anticipating how a person will interact with objects in an environment is essential for activity understanding, but existing methods are limited to the 2D space of video frames-capturing physically ungrounded predictions of 'what' and ignoring the 'where' and 'how'. We introduce 4D future interaction prediction from videos. Given an input video of a human activity, the goal is to predict what objects at what 3D locations the person will interact with in the next time period (e.g., cabinet, fridge), and how they will execute that interaction (e.g., poses for bending, reaching, pulling). We propose a novel model FIction that fuses the past video observation of the person's actions and their environment to predict both the 'where' and 'how' of future interactions. Through comprehensive experiments on a variety of activities and real-world environments in Ego-Exo4D, we show that our proposed approach outperforms prior autoregressive and (lifted) 2D video models substantially, with more than 30% relative gains.
- Abstract(参考訳): しかし, 既存の手法は映像フレームの2次元空間に限られており, 「何」と「どのように」を無視するかを物理的に未定の予測として捉えている。
ビデオから4次元のインタラクション予測を導入する。
人間の活動のインプットビデオが与えられたら、次回(例えば、キャビネット、冷蔵庫)にどんな3D位置と相互作用するか、そのインタラクションをどのように実行するか(例えば、曲げ、手を伸ばし、引っ張るポーズ)を予測する。
本研究では,人物の行動と環境の過去の映像観察を融合させ,将来のインタラクションの「場所」と「方法」の両方を予測する新しいモデルFIctionを提案する。
Ego-Exo4Dにおける様々な活動と実環境に関する総合的な実験を通じて,提案手法は, 自己回帰的および(リフトされた)2Dビデオモデルよりも大きく, 30%以上の相対的なゲインを有することを示す。
関連論文リスト
- Forecasting Future Videos from Novel Views via Disentangled 3D Scene Representation [54.60804602905519]
我々は、階層化されたシーン形状、動き予測、新しいビュー合成を一緒にモデル化することを目的として、絡み合った表現を学習する。
本手法では,2次元のシーンを3次元の点群に持ち上げることによって,シーン形状をシーンの動きから切り離す。
将来の3次元シーンの動作をモデル化するために,まず自我運動を予測し,その後に動的物体の残留運動を予測する2段階のアンタングル手法を提案する。
論文 参考訳(メタデータ) (2024-07-31T08:54:50Z) - Diff-IP2D: Diffusion-Based Hand-Object Interaction Prediction on Egocentric Videos [22.81433371521832]
そこで我々は,Diff-IP2Dを提案する。
提案手法は,市販のメトリクスと新たに提案した評価プロトコルの両方において,最先端のベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2024-05-07T14:51:05Z) - Multimodal Sense-Informed Prediction of 3D Human Motions [16.71099574742631]
本研究は,2つのモーダル情報に対して高忠実度を生成するマルチモーダル・インフォームド・モーション・予測手法を提案する。
視線情報は人間の意図と見なされ、動きとシーンの特徴が組み合わさって、世代を監督するために第3の意図に注意を向ける。
実世界の2つのベンチマークにおいて,提案手法は3次元人間のポーズと軌道予測の両方において最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-05-05T12:38:10Z) - Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z) - Synthesizing Diverse Human Motions in 3D Indoor Scenes [16.948649870341782]
そこで本研究では,仮想人間による3次元屋内シーンの映像化手法を提案する。
既存のアプローチは、キャプチャーされた人間の動きと、それらが相互作用する3Dシーンを含むトレーニングシーケンスに依存している。
仮想人間が3Dシーンをナビゲートし、現実的かつ自律的にオブジェクトと対話できる強化学習ベースのアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-21T09:22:24Z) - Graphing the Future: Activity and Next Active Object Prediction using
Graph-based Activity Representations [0.0]
本稿では,映像中の人間と物体の相互作用を視覚的に予測するための新しい手法を提案する。
我々は(a)現在進行中の人間と物体の相互作用のクラスと(b)次のアクティブオブジェクト(NAOs)のクラスを予測することを目指している。
動作予測とNAO予測の両方において高い予測精度が得られた。
論文 参考訳(メタデータ) (2022-09-12T12:32:24Z) - Estimating 3D Motion and Forces of Human-Object Interactions from
Internet Videos [49.52070710518688]
一つのRGBビデオからオブジェクトと対話する人の3D動作を再構築する手法を提案する。
本手法では,被験者の3次元ポーズを物体のポーズ,接触位置,人体の接触力とともに推定する。
論文 参考訳(メタデータ) (2021-11-02T13:40:18Z) - Hindsight for Foresight: Unsupervised Structured Dynamics Models from
Physical Interaction [24.72947291987545]
エージェントが世界と対話することを学ぶための鍵となる課題は、オブジェクトの物理的性質を推論することである。
本研究では,ラベルのない3次元点群と画像から直接,ロボットのインタラクションのダイナミクスをモデル化するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-02T11:04:49Z) - Long-term Human Motion Prediction with Scene Context [60.096118270451974]
人間の動きを予測するための新しい3段階フレームワークを提案する。
提案手法はまず,まず複数の人間の動作目標を抽出し,各目標に向けて3次元人間の動作経路を計画し,最後に各経路に続く3次元人間のポーズシーケンスを予測する。
論文 参考訳(メタデータ) (2020-07-07T17:59:53Z) - Occlusion resistant learning of intuitive physics from videos [52.25308231683798]
人工システムの鍵となる能力は、オブジェクト間の物理的相互作用を理解し、状況の将来的な結果を予測することである。
この能力は直感的な物理学と呼ばれ、近年注目されており、ビデオシーケンスからこれらの物理規則を学ぶためのいくつかの方法が提案されている。
論文 参考訳(メタデータ) (2020-04-30T19:35:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。