Fugu-MT 論文翻訳(概要): Egocentric Object Manipulation Graphs

論文の概要: Egocentric Object Manipulation Graphs

arxiv url: http://arxiv.org/abs/2006.03201v1
Date: Fri, 5 Jun 2020 02:03:25 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-25 03:18:25.753256
Title: Egocentric Object Manipulation Graphs
Title（参考訳）: エゴセントリックオブジェクト操作グラフ
Authors: Eadom Dessalene, Michael Maynord, Chinmaya Devaraj, Cornelia Fermuller and Yiannis Aloimonos
Abstract要約: Ego-OMGは、近い将来の行動の行動とモデリングの新たな表現である。意味的時間構造、短期力学、外見の表現を統合している。コードはEgo-OMGの承認を得てリリースされる。
参考スコア（独自算出の注目度）: 8.759425622561334
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce Egocentric Object Manipulation Graphs (Ego-OMG) - a novel representation for activity modeling and anticipation of near future actions integrating three components: 1) semantic temporal structure of activities, 2) short-term dynamics, and 3) representations for appearance. Semantic temporal structure is modeled through a graph, embedded through a Graph Convolutional Network, whose states model characteristics of and relations between hands and objects. These state representations derive from all three levels of abstraction, and span segments delimited by the making and breaking of hand-object contact. Short-term dynamics are modeled in two ways: A) through 3D convolutions, and B) through anticipating the spatiotemporal end points of hand trajectories, where hands come into contact with objects. Appearance is modeled through deep spatiotemporal features produced through existing methods. We note that in Ego-OMG it is simple to swap these appearance features, and thus Ego-OMG is complementary to most existing action anticipation methods. We evaluate Ego-OMG on the EPIC Kitchens Action Anticipation Challenge. The consistency of the egocentric perspective of EPIC Kitchens allows for the utilization of the hand-centric cues upon which Ego-OMG relies. We demonstrate state-of-the-art performance, outranking all other previous published methods by large margins and ranking first on the unseen test set and second on the seen test set of the EPIC Kitchens Action Anticipation Challenge. We attribute the success of Ego-OMG to the modeling of semantic structure captured over long timespans. We evaluate the design choices made through several ablation studies. Code will be released upon acceptance
Abstract（参考訳）: エゴセントリックオブジェクト操作グラフ (ego-omg) - アクティビティモデリングのための新しい表現と、3つのコンポーネントを統合する近未来のアクションの予測を紹介する。 1)活動の意味的時間構造 2)短期ダイナミクス,及び 3)外見の表現。意味的時間構造はグラフを通してモデル化され、グラフ畳み込みネットワークを通じて埋め込み、その状態は手とオブジェクトの関係をモデル化する。これらの状態表現は、3つの抽象レベル全てから派生し、手オブジェクト接触の生成と破壊によって区切られたスパンセグメントから導かれる。短期力学は2つの方法でモデル化される: A) 3次元の畳み込み、B) 手の動きの時空間的な端点を予測し、手は物体と接触する。外観は、既存の方法で生成された深い時空間的特徴によってモデル化される。 Ego-OMGでは、これらの外観特徴を置き換えることは簡単であり、Ego-OMGは既存の行動予測手法を補完するものである。 EPIC Kitchens Action Precipation ChallengeにおけるEgo-OMGの評価を行った。 EPIC Kitchensの自我中心の視点の一貫性は、Ego-OMGが依存する手中心の手がかりの利用を可能にする。我々は最先端のパフォーマンスを実証し、これまでのすべてのメソッドを大きなマージンでランク付けし、未発見のテストセットで第1位、epic kitchens action anticipation challengeで見たテストセットで第2位でランク付けする。 Ego-OMGの成功は、長い時間に捕獲された意味構造のモデル化によるものである。我々はいくつかのアブレーション研究を通じて設計選択を評価する。コードは受理時に解放される

関連論文リスト

EgoAgent: A Joint Predictive Agent Model in Egocentric Worlds [107.62381002403814]
本稿では,人間のように行動するエージェントモデルを学習し,人間中心の世界において協調的に知覚し,予測し,行動することができる課題について述べる。本研究では,世界を表現することを同時に学び,将来の状態を予測し,一つのトランスフォーマー内で合理的な行動をとる,共同予測エージェントモデルEgoAgentを提案する。
論文参考訳（メタデータ） (2025-02-09T11:28:57Z)
HOIMotion: Forecasting Human Motion During Human-Object Interactions Using Egocentric 3D Object Bounding Boxes [10.237077867790612]
本稿では,人間と物体の相互作用における人間の動き予測の新しい手法であるHOIMotionを提案する。提案手法は,過去の身体のポーズやエゴセントリックな3Dオブジェクト境界ボックスに関する情報を統合する。 HOIMotionは、最先端の手法よりも大きなマージンで一貫して優れていることを示す。
論文参考訳（メタデータ） (2024-07-02T19:58:35Z)
EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文参考訳（メタデータ） (2024-06-28T10:39:36Z)
EMAG: Ego-motion Aware and Generalizable 2D Hand Forecasting from Egocentric Videos [9.340890244344497]
2次元手の位置を予測するための既存の手法は視覚的表現に依存しており、主に手動物体の相互作用に焦点を当てている。本研究では,エゴモーション認識と一般化可能な2次元手指予測手法であるEMAGを提案する。本モデルでは,従来手法よりも1.7%,7.0%性能が向上した。
論文参考訳（メタデータ） (2024-05-30T13:15:18Z)
Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文参考訳（メタデータ） (2024-04-17T11:55:45Z)
Benchmarks and Challenges in Pose Estimation for Egocentric Hand Interactions with Objects [89.95728475983263]
ロボティクス、AR/VR、アクション認識、モーション生成といったタスクにおいて、自己中心的な視点からこのようなインタラクションを理解することが重要である。我々は、AmblyHandsとARCTICデータセットに基づいたHANDS23チャレンジを、慎重に設計されたトレーニングとテストの分割に基づいて設計する。提案手法の結果と近年のリーダーボードのベースラインに基づいて,3Dハンド(オブジェクト)再構成タスクの徹底的な解析を行う。
論文参考訳（メタデータ） (2024-03-25T05:12:21Z)
Action Scene Graphs for Long-Form Understanding of Egocentric Videos [23.058999979457546]
Egocentric Action Scene Graphs (EASGs) は、Egocentric Videoの長期的理解のための新しい表現である。 EASGは、カメラ装着者が行うアクションの時間的に進化したグラフベースの記述を提供する。実験とアノテーションを複製するデータセットとコードを公開します。
論文参考訳（メタデータ） (2023-12-06T10:01:43Z)
GRIP: Generating Interaction Poses Using Spatial Cues and Latent Consistency [57.9920824261925]
手は器用で多用途なマニピュレータであり、人間が物体や環境とどのように相互作用するかの中心である。現実的な手オブジェクトの相互作用をモデル化することは、コンピュータグラフィックス、コンピュータビジョン、混合現実の応用において重要である。 GRIPは、体と物体の3次元運動を入力として取り、物体の相互作用の前、中、後の両方の両手の現実的な動きを合成する学習ベースの手法である。
論文参考訳（メタデータ） (2023-08-22T17:59:51Z)
Language-free Compositional Action Generation via Decoupling Refinement [67.50452446686725]
本稿では,言語補助に頼らずに作曲行動を生成する新しい枠組みを提案する。このアプローチは,アクション結合,条件付きアクション生成,デカップリングリファインメントという3つの主要コンポーネントから構成される。
論文参考訳（メタデータ） (2023-07-07T12:00:38Z)
StillFast: An End-to-End Approach for Short-Term Object Interaction Anticipation [14.188006024550257]
我々は,エゴセントリックな視点から,短期的な物体相互作用予測問題を考察した。提案手法は静止画像と映像を同時に処理し,次のアクティブ物体を検出する。本手法は,EGO4D短期オブジェクトインタラクション予測課題2022において,第1位にランクされている。
論文参考訳（メタデータ） (2023-04-08T09:01:37Z)
Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文参考訳（メタデータ） (2021-03-29T14:37:35Z)
Forecasting Action through Contact Representations from First Person Video [7.10140895422075]
接触を中心とした表現とモデルを導入し,そのモデルを用いて行動予測と予測を行う。これらのアノテーションを使用して、期待される近い将来のアクションの新たな低レベル表現を生成するモジュールをトレーニングします。予測モジュールの上に、アクション予測と予測のためのフレームワークであるEgo-OMGを適用します。
論文参考訳（メタデータ） (2021-02-01T05:52:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。