論文の概要: Forecasting Action through Contact Representations from First Person
Video
- arxiv url: http://arxiv.org/abs/2102.00649v1
- Date: Mon, 1 Feb 2021 05:52:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-03 08:25:19.238142
- Title: Forecasting Action through Contact Representations from First Person
Video
- Title(参考訳): ファーストパーソンビデオからのコンタクト表現による予測アクション
- Authors: Eadom Dessalene, Chinmaya Devaraj, Michael Maynord, Cornelia
Fermuller, and Yiannis Aloimonos
- Abstract要約: 接触を中心とした表現とモデルを導入し,そのモデルを用いて行動予測と予測を行う。
これらのアノテーションを使用して、期待される近い将来のアクションの新たな低レベル表現を生成するモジュールをトレーニングします。
予測モジュールの上に、アクション予測と予測のためのフレームワークであるEgo-OMGを適用します。
- 参考スコア(独自算出の注目度): 7.10140895422075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human actions involving hand manipulations are structured according to the
making and breaking of hand-object contact, and human visual understanding of
action is reliant on anticipation of contact as is demonstrated by pioneering
work in cognitive science. Taking inspiration from this, we introduce
representations and models centered on contact, which we then use in action
prediction and anticipation. We annotate a subset of the EPIC Kitchens dataset
to include time-to-contact between hands and objects, as well as segmentations
of hands and objects. Using these annotations we train the Anticipation Module,
a module producing Contact Anticipation Maps and Next Active Object
Segmentations - novel low-level representations providing temporal and spatial
characteristics of anticipated near future action. On top of the Anticipation
Module we apply Egocentric Object Manipulation Graphs (Ego-OMG), a framework
for action anticipation and prediction. Ego-OMG models longer term temporal
semantic relations through the use of a graph modeling transitions between
contact delineated action states. Use of the Anticipation Module within Ego-OMG
produces state-of-the-art results, achieving 1st and 2nd place on the unseen
and seen test sets, respectively, of the EPIC Kitchens Action Anticipation
Challenge, and achieving state-of-the-art results on the tasks of action
anticipation and action prediction over EPIC Kitchens. We perform ablation
studies over characteristics of the Anticipation Module to evaluate their
utility.
- Abstract(参考訳): 手操作を含む人間の行動は、手対象の接触の作成と破壊に基づいて構成され、行動の人間の視覚的理解は、認知科学の先駆的な研究によって実証されるように、接触の予測に依存している。
これから着想を得て,接触を中心とした表現とモデルを紹介し,行動予測と予測に使用する。
EPIC Kitchensデータセットのサブセットをアノテートして、ハンドとオブジェクト間の接触時間、ハンドとオブジェクトのセグメンテーションを含むようにします。
これらのアノテーションを使って予測モジュール、接触予測マップを生成するモジュール、そして次のアクティブオブジェクトセグメンテーションを訓練します。
予測モジュールの上に、アクション予測と予測のためのフレームワークであるEgocentric Object Manipulation Graphs (Ego-OMG)を適用します。
Ego-OMGは、接触線型行動状態間のグラフモデリング遷移を使用して、より長期の時間的意味関係をモデル化する。
ego-omg内の予測モジュールの使用は、最先端の結果を生成し、epic kitchens action anticipation challengeのunseenおよびseetテストセットでそれぞれ1位と2位を達成し、epic kitchens上でのアクション予測とアクション予測のタスクに関する最先端の結果を得る。
我々は,予測モジュールの特性に関するアブレーション研究を行い,その有用性を評価する。
関連論文リスト
- PEAR: Phrase-Based Hand-Object Interaction Anticipation [20.53329698350243]
ファースト・パーソン・ハンド・オブジェクト・インタラクション・予測は、現在のシーンとプロンプトに基づいてインタラクション・プロセスを予測することを目的としている。
既存の研究は通常、操作を無視しながら相互作用の意図だけを予測している。
インタラクションの意図と操作を共同で予測する新しいモデルPEARを提案する。
論文 参考訳(メタデータ) (2024-07-31T10:28:49Z) - PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - GRIP: Generating Interaction Poses Using Spatial Cues and Latent Consistency [57.9920824261925]
手は器用で多用途なマニピュレータであり、人間が物体や環境とどのように相互作用するかの中心である。
現実的な手オブジェクトの相互作用をモデル化することは、コンピュータグラフィックス、コンピュータビジョン、混合現実の応用において重要である。
GRIPは、体と物体の3次元運動を入力として取り、物体の相互作用の前、中、後の両方の両手の現実的な動きを合成する学習ベースの手法である。
論文 参考訳(メタデータ) (2023-08-22T17:59:51Z) - Leveraging Next-Active Objects for Context-Aware Anticipation in
Egocentric Videos [31.620555223890626]
短期オブジェクト間相互作用予測(STA)の問題点について検討する。
本稿では,マルチモーダル・エンド・ツー・エンド・トランスフォーマー・ネットワークであるNAOGATを提案する。
我々のモデルは2つの異なるデータセット上で既存の手法より優れている。
論文 参考訳(メタデータ) (2023-08-16T12:07:02Z) - Enhancing Next Active Object-based Egocentric Action Anticipation with
Guided Attention [45.60789439017625]
個人ビデオにおける短期的行動予測(STA)は難しい課題である。
本稿では,オブジェクト間のガイド付きアテンション機構を適用した新しいアプローチを提案する。
提案手法であるGANOは,マルチモーダル,エンドツーエンド,シングルトランスベースのネットワークである。
論文 参考訳(メタデータ) (2023-05-22T11:56:10Z) - Graphing the Future: Activity and Next Active Object Prediction using
Graph-based Activity Representations [0.0]
本稿では,映像中の人間と物体の相互作用を視覚的に予測するための新しい手法を提案する。
我々は(a)現在進行中の人間と物体の相互作用のクラスと(b)次のアクティブオブジェクト(NAOs)のクラスを予測することを目指している。
動作予測とNAO予測の両方において高い予測精度が得られた。
論文 参考訳(メタデータ) (2022-09-12T12:32:24Z) - Dynamic Modeling of Hand-Object Interactions via Tactile Sensing [133.52375730875696]
本研究では,高分解能な触覚グローブを用いて,多種多様な物体に対して4種類のインタラクティブな動作を行う。
我々は,クロスモーダル学習フレームワーク上にモデルを構築し,視覚処理パイプラインを用いてラベルを生成し,触覚モデルを監督する。
この研究は、高密度触覚センシングによる手動物体相互作用における動的モデリングの一歩を踏み出す。
論文 参考訳(メタデータ) (2021-09-09T16:04:14Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。
本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-03-29T14:37:35Z) - Pose And Joint-Aware Action Recognition [87.4780883700755]
本稿では,まず,共有動作エンコーダを用いて各関節の動作特徴を別々に抽出する,関節に基づく動作認識の新しいモデルを提案する。
私たちのジョイントセレクタモジュールは、そのタスクの最も識別性の高いジョイントを選択するために、ジョイント情報を再重み付けします。
JHMDB, HMDB, Charades, AVA アクション認識データセットにおける最先端のジョイントベースアプローチに対する大きな改善点を示す。
論文 参考訳(メタデータ) (2020-10-16T04:43:34Z) - Egocentric Object Manipulation Graphs [8.759425622561334]
Ego-OMGは、近い将来の行動の行動とモデリングの新たな表現である。
意味的時間構造、短期力学、外見の表現を統合している。
コードはEgo-OMGの承認を得てリリースされる。
論文 参考訳(メタデータ) (2020-06-05T02:03:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。