論文の概要: Egocentric Object Manipulation Graphs
- arxiv url: http://arxiv.org/abs/2006.03201v1
- Date: Fri, 5 Jun 2020 02:03:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 03:18:25.753256
- Title: Egocentric Object Manipulation Graphs
- Title(参考訳): エゴセントリックオブジェクト操作グラフ
- Authors: Eadom Dessalene, Michael Maynord, Chinmaya Devaraj, Cornelia Fermuller
and Yiannis Aloimonos
- Abstract要約: Ego-OMGは、近い将来の行動の行動とモデリングの新たな表現である。
意味的時間構造、短期力学、外見の表現を統合している。
コードはEgo-OMGの承認を得てリリースされる。
- 参考スコア(独自算出の注目度): 8.759425622561334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Egocentric Object Manipulation Graphs (Ego-OMG) - a novel
representation for activity modeling and anticipation of near future actions
integrating three components: 1) semantic temporal structure of activities, 2)
short-term dynamics, and 3) representations for appearance. Semantic temporal
structure is modeled through a graph, embedded through a Graph Convolutional
Network, whose states model characteristics of and relations between hands and
objects. These state representations derive from all three levels of
abstraction, and span segments delimited by the making and breaking of
hand-object contact. Short-term dynamics are modeled in two ways: A) through 3D
convolutions, and B) through anticipating the spatiotemporal end points of hand
trajectories, where hands come into contact with objects. Appearance is modeled
through deep spatiotemporal features produced through existing methods. We note
that in Ego-OMG it is simple to swap these appearance features, and thus
Ego-OMG is complementary to most existing action anticipation methods. We
evaluate Ego-OMG on the EPIC Kitchens Action Anticipation Challenge. The
consistency of the egocentric perspective of EPIC Kitchens allows for the
utilization of the hand-centric cues upon which Ego-OMG relies. We demonstrate
state-of-the-art performance, outranking all other previous published methods
by large margins and ranking first on the unseen test set and second on the
seen test set of the EPIC Kitchens Action Anticipation Challenge. We attribute
the success of Ego-OMG to the modeling of semantic structure captured over long
timespans. We evaluate the design choices made through several ablation
studies. Code will be released upon acceptance
- Abstract(参考訳): エゴセントリックオブジェクト操作グラフ (ego-omg) - アクティビティモデリングのための新しい表現と、3つのコンポーネントを統合する近未来のアクションの予測を紹介する。
1)活動の意味的時間構造
2)短期ダイナミクス,及び
3)外見の表現。
意味的時間構造はグラフを通してモデル化され、グラフ畳み込みネットワークを通じて埋め込み、その状態は手とオブジェクトの関係をモデル化する。
これらの状態表現は、3つの抽象レベル全てから派生し、手オブジェクト接触の生成と破壊によって区切られたスパンセグメントから導かれる。
短期力学は2つの方法でモデル化される: A) 3次元の畳み込み、B) 手の動きの時空間的な端点を予測し、手は物体と接触する。
外観は、既存の方法で生成された深い時空間的特徴によってモデル化される。
Ego-OMGでは、これらの外観特徴を置き換えることは簡単であり、Ego-OMGは既存の行動予測手法を補完するものである。
EPIC Kitchens Action Precipation ChallengeにおけるEgo-OMGの評価を行った。
EPIC Kitchensの自我中心の視点の一貫性は、Ego-OMGが依存する手中心の手がかりの利用を可能にする。
我々は最先端のパフォーマンスを実証し、これまでのすべてのメソッドを大きなマージンでランク付けし、未発見のテストセットで第1位、epic kitchens action anticipation challengeで見たテストセットで第2位でランク付けする。
Ego-OMGの成功は、長い時間に捕獲された意味構造のモデル化によるものである。
我々はいくつかのアブレーション研究を通じて設計選択を評価する。
コードは受理時に解放される
関連論文リスト
- Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - Action Scene Graphs for Long-Form Understanding of Egocentric Videos [23.058999979457546]
Egocentric Action Scene Graphs (EASGs) は、Egocentric Videoの長期的理解のための新しい表現である。
EASGは、カメラ装着者が行うアクションの時間的に進化したグラフベースの記述を提供する。
実験とアノテーションを複製するデータセットとコードを公開します。
論文 参考訳(メタデータ) (2023-12-06T10:01:43Z) - Generative Hierarchical Temporal Transformer for Hand Action Recognition
and Motion Prediction [70.86769090545076]
本稿では,手の動き認識と3次元手の動き予測を同時に行う新しいフレームワークを提案する。
フレームワークは複数のデータセットにまたがってトレーニングされ、ポーズとアクションブロックは個別にトレーニングされ、ポーズアクションアノテーションを完全に活用する。
論文 参考訳(メタデータ) (2023-11-29T05:28:39Z) - GRIP: Generating Interaction Poses Using Latent Consistency and Spatial
Cues [60.90013719118856]
手は器用で多用途なマニピュレータであり、人間が物体や環境とどのように相互作用するかの中心である。
現実的な手オブジェクトの相互作用をモデル化することは、コンピュータグラフィックス、コンピュータビジョン、混合現実の応用において重要である。
GRIPは、体と物体の3次元運動を入力として取り、物体の相互作用の前、中、後の両方の両手の現実的な動きを合成する学習ベースの手法である。
論文 参考訳(メタデータ) (2023-08-22T17:59:51Z) - VS-TransGRU: A Novel Transformer-GRU-based Framework Enhanced by
Visual-Semantic Fusion for Egocentric Action Anticipation [33.41226268323332]
エゴセントリックなアクション予測は、一人称視点で将来のアクションを先進的に予測することを目的とした課題である。
既存のほとんどの手法は、視覚入力とリカレントニューラルネットワークに基づくモデルアーキテクチャと損失関数の改善に重点を置いている。
本稿では,新しいビジュアル・セマンティック融合とトランスフォーマーGRUに基づくアクション予測フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-08T06:49:54Z) - Language-free Compositional Action Generation via Decoupling Refinement [67.50452446686725]
本稿では,言語補助に頼らずに作曲行動を生成する新しい枠組みを提案する。
このアプローチは,アクション結合,条件付きアクション生成,デカップリングリファインメントという3つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2023-07-07T12:00:38Z) - StillFast: An End-to-End Approach for Short-Term Object Interaction
Anticipation [23.598727613908853]
我々は,エゴセントリックな視点から,短期的な物体相互作用予測問題を考察した。
提案手法は静止画像と映像を同時に処理し,次のアクティブ物体を検出する。
本手法は,EGO4D短期オブジェクトインタラクション予測課題2022において,第1位にランクされている。
論文 参考訳(メタデータ) (2023-04-08T09:01:37Z) - Diverse 3D Hand Gesture Prediction from Body Dynamics by Bilateral Hand
Disentanglement [42.98335775548796]
両手指離断に基づく2段階手指生成手法を提案する。
第1段階では、2つの手振り枝による自然な手振りを生成する。
第2段階は、3Dハンドの予測は非決定論的であるべきだという洞察に基づいて構築されている。
論文 参考訳(メタデータ) (2023-03-03T08:08:04Z) - Investigating Pose Representations and Motion Contexts Modeling for 3D
Motion Prediction [63.62263239934777]
歴史的ポーズシーケンスから人間の動きを予測することは、機械が人間と知的な相互作用を成功させるために不可欠である。
本研究では,様々なポーズ表現に関する詳細な研究を行い,その動作予測課題に対する効果に着目した。
AHMR(Attentive Hierarchical Motion Recurrent Network)と呼ばれる新しいRNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-30T10:45:22Z) - Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。
本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-03-29T14:37:35Z) - Forecasting Action through Contact Representations from First Person
Video [7.10140895422075]
接触を中心とした表現とモデルを導入し,そのモデルを用いて行動予測と予測を行う。
これらのアノテーションを使用して、期待される近い将来のアクションの新たな低レベル表現を生成するモジュールをトレーニングします。
予測モジュールの上に、アクション予測と予測のためのフレームワークであるEgo-OMGを適用します。
論文 参考訳(メタデータ) (2021-02-01T05:52:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。