論文の概要: PIP: Physical Interaction Prediction via Mental Imagery with Span
Selection
- arxiv url: http://arxiv.org/abs/2109.04683v1
- Date: Fri, 10 Sep 2021 06:11:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-13 13:44:42.499625
- Title: PIP: Physical Interaction Prediction via Mental Imagery with Span
Selection
- Title(参考訳): PIP:スパン選択を伴う心的イメージによる身体的相互作用予測
- Authors: Jiafei Duan, Samson Yu, Soujanya Poria, Bihan Wen, Cheston Tan
- Abstract要約: 我々は,空間選択を伴う心的イメージによる身体的相互作用予測という新しいPIP方式を提案する。
PIPは深層生成モデルを用いて、重要な情報を抽出する前にオブジェクト間の物理的相互作用の将来のフレームを出力する。
実験の結果,PIPは目視対象と目視対象の両方の物理的相互作用予測において,ベースラインや人体性能よりも優れていた。
- 参考スコア(独自算出の注目度): 24.22281131863951
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To align advanced artificial intelligence (AI) with human values and promote
safe AI, it is important for AI to predict the outcome of physical
interactions. Even with the ongoing debates on how humans predict the outcomes
of physical interactions among objects in the real world, there are works
attempting to tackle this task via cognitive-inspired AI approaches. However,
there is still a lack of AI approaches that mimic the mental imagery humans use
to predict physical interactions in the real world. In this work, we propose a
novel PIP scheme: Physical Interaction Prediction via Mental Imagery with Span
Selection. PIP utilizes a deep generative model to output future frames of
physical interactions among objects before extracting crucial information for
predicting physical interactions by focusing on salient frames using span
selection. To evaluate our model, we propose a large-scale SPACE+ dataset of
synthetic video frames, including three physical interaction events in a 3D
environment. Our experiments show that PIP outperforms baselines and human
performance in physical interaction prediction for both seen and unseen
objects. Furthermore, PIP's span selection scheme can effectively identify the
frames where physical interactions among objects occur within the generated
frames, allowing for added interpretability.
- Abstract(参考訳): 高度な人工知能(AI)を人間の価値観と整合させ、安全なAIを促進するためには、AIが物理的相互作用の結果を予測することが重要である。
現実世界のオブジェクト間の物理的相互作用の結果を人間がどのように予測するかという議論が続いているが、認知に触発されたAIアプローチを通じて、この課題に対処しようとする研究がある。
しかし、人間が現実世界で物理的相互作用を予測するために使用する精神的なイメージを模倣するAIアプローチがまだ存在しない。
本研究では,Span Selection を用いたメンタルイメージによる身体的相互作用予測手法を提案する。
PIPは、深層生成モデルを用いて、オブジェクト間の物理的な相互作用の将来のフレームを出力し、スパンセレクションを用いた健全なフレームに着目して物理的相互作用を予測する重要な情報を抽出する。
本研究では,3次元環境における3つの物理的相互作用イベントを含む合成ビデオフレームの大規模空間+データセットを提案する。
実験の結果,PIPは目視対象と目視対象の両方の物理的相互作用予測において,ベースラインや人体性能よりも優れていた。
さらに、PIPのスパン選択スキームは、生成されたフレーム内でオブジェクト間の物理的相互作用が発生するフレームを効果的に識別し、追加の解釈可能性を実現する。
関連論文リスト
- InterDiff: Generating 3D Human-Object Interactions with Physics-Informed
Diffusion [29.25063155767897]
本稿では,3次元物体相互作用(HOI)の予測に向けた新しい課題について述べる。
我々のタスクは、様々な形状の動的物体をモデリングし、全身の動きを捉え、物理的に有効な相互作用を確実にする必要があるため、はるかに困難である。
複数の人-物間相互作用データセットを用いた実験は,本手法の有効性を実証し,現実的で,鮮明で,かつ,極めて長期にわたる3D HOI予測を生成できることを示した。
論文 参考訳(メタデータ) (2023-08-31T17:59:08Z) - Qualitative Prediction of Multi-Agent Spatial Interactions [5.742409080817885]
我々は,密集シーンにおけるマルチエージェントインタラクションをモデル化し,予測するための3つの新しいアプローチを提示し,ベンチマークする。
提案手法は、個々の相互作用を予測する静的および動的コンテキストを考慮したものである。
彼らはインプット・アンド・タイムアテンション・メカニズムを利用し、中・長期の地平線でテストされる。
論文 参考訳(メタデータ) (2023-06-30T18:08:25Z) - Learn to Predict How Humans Manipulate Large-sized Objects from
Interactive Motions [82.90906153293585]
本稿では,動きデータと動的記述子を融合させるグラフニューラルネットワークHO-GCNを提案する。
動的記述子を消費するネットワークは、最先端の予測結果が得られ、未確認オブジェクトへのネットワークの一般化に役立つことを示す。
論文 参考訳(メタデータ) (2022-06-25T09:55:39Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - Physion: Evaluating Physical Prediction from Vision in Humans and
Machines [46.19008633309041]
我々は、この能力を正確に測定する視覚的および身体的予測ベンチマークを示す。
我々は、様々な物理予測を行う能力について、アルゴリズムの配列を比較した。
物理的な状態にアクセス可能なグラフニューラルネットワークは、人間の振る舞いを最もよく捉えている。
論文 参考訳(メタデータ) (2021-06-15T16:13:39Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - ThreeDWorld: A Platform for Interactive Multi-Modal Physical Simulation [75.0278287071591]
ThreeDWorld (TDW) はインタラクティブなマルチモーダル物理シミュレーションのためのプラットフォームである。
TDWは、リッチな3D環境において、高忠実な感覚データのシミュレーションと、移動体エージェントとオブジェクト間の物理的相互作用を可能にする。
我々は、コンピュータビジョン、機械学習、認知科学における新たな研究方向において、TDWによって実現された初期実験を提示する。
論文 参考訳(メタデータ) (2020-07-09T17:33:27Z) - Visual Grounding of Learned Physical Models [66.04898704928517]
人間は、物体の物理的特性を直感的に認識し、複雑な相互作用に従事している場合でも、その動きを予測する。
我々は、物理を同時に推論し、視覚と力学の先行に基づく将来の予測を行うニューラルモデルを提案する。
実験により、我々のモデルはいくつかの観測範囲内で物理的特性を推測できることが示され、モデルが目に見えないシナリオに迅速に適応し、将来正確な予測を行うことができる。
論文 参考訳(メタデータ) (2020-04-28T17:06:38Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。