論文の概要: PEAR: Phrase-Based Hand-Object Interaction Anticipation
- arxiv url: http://arxiv.org/abs/2407.21510v1
- Date: Wed, 31 Jul 2024 10:28:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 12:37:28.347016
- Title: PEAR: Phrase-Based Hand-Object Interaction Anticipation
- Title(参考訳): PEAR: フレーズベースハンドオブジェクトインタラクション予測
- Authors: Zichen Zhang, Hongchen Luo, Wei Zhai, Yang Cao, Yu Kang,
- Abstract要約: ファースト・パーソン・ハンド・オブジェクト・インタラクション・予測は、現在のシーンとプロンプトに基づいてインタラクション・プロセスを予測することを目的としている。
既存の研究は通常、操作を無視しながら相互作用の意図だけを予測している。
インタラクションの意図と操作を共同で予測する新しいモデルPEARを提案する。
- 参考スコア(独自算出の注目度): 20.53329698350243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: First-person hand-object interaction anticipation aims to predict the interaction process over a forthcoming period based on current scenes and prompts. This capability is crucial for embodied intelligence and human-robot collaboration. The complete interaction process involves both pre-contact interaction intention (i.e., hand motion trends and interaction hotspots) and post-contact interaction manipulation (i.e., manipulation trajectories and hand poses with contact). Existing research typically anticipates only interaction intention while neglecting manipulation, resulting in incomplete predictions and an increased likelihood of intention errors due to the lack of manipulation constraints. To address this, we propose a novel model, PEAR (Phrase-Based Hand-Object Interaction Anticipation), which jointly anticipates interaction intention and manipulation. To handle uncertainties in the interaction process, we employ a twofold approach. Firstly, we perform cross-alignment of verbs, nouns, and images to reduce the diversity of hand movement patterns and object functional attributes, thereby mitigating intention uncertainty. Secondly, we establish bidirectional constraints between intention and manipulation using dynamic integration and residual connections, ensuring consistency among elements and thus overcoming manipulation uncertainty. To rigorously evaluate the performance of the proposed model, we collect a new task-relevant dataset, EGO-HOIP, with comprehensive annotations. Extensive experimental results demonstrate the superiority of our method.
- Abstract(参考訳): 対人対人インタラクション予測は,現在のシーンとプロンプトに基づいて,今後のインタラクションプロセスを予測することを目的としている。
この能力は、インテリジェンスと人間とロボットのコラボレーションに不可欠である。
完全な相互作用プロセスは、事前接触相互作用意図(手の動き傾向と相互作用ホットスポット)と後接触相互作用操作(つまり、軌跡の操作と接触による手ポーズ)の両方を含む。
既存の研究は、操作を無視しながらの相互作用意図のみを予測し、結果として不完全な予測と、操作制約の欠如による意図的誤りの可能性が増大する。
そこで我々は,インタラクションの意図と操作を共同で予測する新しいモデルPEAR(Phrase-based Hand-Object Interaction Precipation)を提案する。
相互作用プロセスの不確実性に対処するために、我々は2倍のアプローチを採用する。
まず,動詞,名詞,画像の相互アライメントを行い,手の動きパターンや対象機能属性の多様性を低減し,意図的不確実性を緩和する。
次に、動的統合と残差接続を用いた意図と操作の双方向的な制約を確立し、要素間の整合性を確保し、操作の不確実性を克服する。
提案モデルの性能を厳密に評価するために,包括的なアノテーションを用いたタスク関連データセット EGO-HOIP を新たに収集する。
大規模な実験結果から,本手法の優位性が確認された。
関連論文リスト
- Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - Articulated Object Manipulation using Online Axis Estimation with SAM2-Based Tracking [59.87033229815062]
アーティキュレートされたオブジェクト操作は、オブジェクトの軸を慎重に考慮する必要がある、正確なオブジェクトインタラクションを必要とする。
従来の研究では、対話的な知覚を用いて関節のある物体を操作するが、通常、オープンループのアプローチは相互作用のダイナミクスを見渡すことに悩まされる。
本稿では,対話的知覚と3次元点雲からのオンライン軸推定を統合したクローズドループパイプラインを提案する。
論文 参考訳(メタデータ) (2024-09-24T17:59:56Z) - THOR: Text to Human-Object Interaction Diffusion via Relation Intervention [51.02435289160616]
我々は、リレーショナルインターベンション(THOR)を用いたテキスト誘導型ヒューマンオブジェクト相互作用拡散モデルを提案する。
各拡散段階において、テキスト誘導された人間と物体の動きを開始し、その後、人と物体の関係を利用して物体の動きに介入する。
テキスト記述をシームレスに統合するText2HOIデータセットであるText-BEHAVEを,現在最大規模で公開されている3D HOIデータセットに構築する。
論文 参考訳(メタデータ) (2024-03-17T13:17:25Z) - SSL-Interactions: Pretext Tasks for Interactive Trajectory Prediction [4.286256266868156]
トラジェクティブ予測のためのインタラクションモデリングを強化するために,プリテキストタスクを提案するSSL-Interactionsを提案する。
エージェントインタラクションの様々な側面をカプセル化する4つの対話対応プレテキストタスクを導入する。
また,データセットからインタラクション重大シナリオをキュレートする手法を提案する。
論文 参考訳(メタデータ) (2024-01-15T14:43:40Z) - LEMON: Learning 3D Human-Object Interaction Relation from 2D Images [56.6123961391372]
人間の物体と物体の相互作用関係の学習は、AIと相互作用モデリングの具体化に不可欠である。
既存のほとんどの手法は、孤立した相互作用要素を予測することを学ぶことで目標に近づいている。
本稿では,相互の相互作用意図をマイニングし,幾何相関の抽出を導出するための曲率を用いた統一モデルLEMONを提案する。
論文 参考訳(メタデータ) (2023-12-14T14:10:57Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - GRIP: Generating Interaction Poses Using Spatial Cues and Latent Consistency [57.9920824261925]
手は器用で多用途なマニピュレータであり、人間が物体や環境とどのように相互作用するかの中心である。
現実的な手オブジェクトの相互作用をモデル化することは、コンピュータグラフィックス、コンピュータビジョン、混合現実の応用において重要である。
GRIPは、体と物体の3次元運動を入力として取り、物体の相互作用の前、中、後の両方の両手の現実的な動きを合成する学習ベースの手法である。
論文 参考訳(メタデータ) (2023-08-22T17:59:51Z) - ProspectNet: Weighted Conditional Attention for Future Interaction
Modeling in Behavior Prediction [5.520507323174275]
本稿では,車両行動の連立学習と連立学習の逐次学習過程として,エンドツーエンドの連立予測問題を定式化する。
本稿では,対話型エージェントペア間の相互影響をモデル化するために,重み付けされた注目スコアを用いた共同学習ブロックであるProspectNetを提案する。
ProspectNetは2つの限界予測のCartesian製品よりも優れており、Interactive Motion Predictionベンチマークで同等のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2022-08-29T19:29:49Z) - DIDER: Discovering Interpretable Dynamically Evolving Relations [14.69985920418015]
本稿では,内在的解釈可能性を備えた汎用的なエンドツーエンドインタラクションモデリングフレームワークであるDIDER,Discovering Interpretable Dynamically Evolving Relationsを紹介する。
合成と実世界の両方のデータセット上でDIDERを評価する。
論文 参考訳(メタデータ) (2022-08-22T20:55:56Z) - RR-Net: Injecting Interactive Semantics in Human-Object Interaction
Detection [40.65483058890176]
最新のエンドツーエンドHOI検出器は関係推論に欠けており、予測のためにHOI固有の対話的セマンティクスを学習できない。
まず、インタラクション推論のための新しい構造とパラメータ共有パターンをもたらす、プログレッシブな関係認識フレームを提案する。
上記のモジュールに基づいて、Relation Reasoning Network (abbr) というエンドツーエンドのトレーニング可能なフレームワークを構築します。
RR-Net)
論文 参考訳(メタデータ) (2021-04-30T14:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。