論文の概要: EgoExo-Fitness: Towards Egocentric and Exocentric Full-Body Action Understanding
- arxiv url: http://arxiv.org/abs/2406.08877v2
- Date: Tue, 16 Jul 2024 09:35:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 20:39:37.048884
- Title: EgoExo-Fitness: Towards Egocentric and Exocentric Full-Body Action Understanding
- Title(参考訳): EgoExo-Fitness:Egocentric and Exocentric Full-Body Action Understandingに向けて
- Authors: Yuan-Ming Li, Wei-Jin Huang, An-Lan Wang, Ling-An Zeng, Jing-Ke Meng, Wei-Shi Zheng,
- Abstract要約: EgoExo-Fitnessは新しいフルボディアクション理解データセットである。
シンクロナイズドエゴセントリックカメラと固定型エゴセントリックカメラで撮影されたフィットネス・シーケンス・ビデオが特徴。
EgoExo-Fitnessは、エゴセントリックでエゴセントリックなフルボディの行動理解を研究するための新しいリソースを提供する。
- 参考スコア(独自算出の注目度): 27.881857222850083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present EgoExo-Fitness, a new full-body action understanding dataset, featuring fitness sequence videos recorded from synchronized egocentric and fixed exocentric (third-person) cameras. Compared with existing full-body action understanding datasets, EgoExo-Fitness not only contains videos from first-person perspectives, but also provides rich annotations. Specifically, two-level temporal boundaries are provided to localize single action videos along with sub-steps of each action. More importantly, EgoExo-Fitness introduces innovative annotations for interpretable action judgement--including technical keypoint verification, natural language comments on action execution, and action quality scores. Combining all of these, EgoExo-Fitness provides new resources to study egocentric and exocentric full-body action understanding across dimensions of "what", "when", and "how well". To facilitate research on egocentric and exocentric full-body action understanding, we construct benchmarks on a suite of tasks (i.e., action classification, action localization, cross-view sequence verification, cross-view skill determination, and a newly proposed task of guidance-based execution verification), together with detailed analysis. Code and data will be available at https://github.com/iSEE-Laboratory/EgoExo-Fitness/tree/main.
- Abstract(参考訳): EgoExo-Fitnessは、新しいフルボディアクション理解データセットで、同期型エゴセントリックカメラと固定型エゴセントリックカメラ(3人称)カメラから記録されたフィットネスシーケンスを特徴とする。
既存のフルボディのアクション理解データセットと比較すると、EgoExo-Fitnessは一人称視点のビデオだけでなく、リッチなアノテーションも提供する。
具体的には、各アクションのサブステップとともに、単一のアクションビデオをローカライズするために、2段階の時間境界が提供される。
さらに重要なのは、EgoExo-Fitnessは、技術的キーポイント検証、アクション実行に関する自然言語コメント、アクション品質スコアを含む、解釈可能なアクション判断のための革新的なアノテーションを導入している。
これらすべてを組み合わせることで、EgoExo-Fitnessは、エゴセントリックでエゴセントリックなフルボディの行動理解を"What"、"When"、"How well"の次元で研究するための新たなリソースを提供する。
本研究では,行動分類,行動ローカライゼーション,クロスビューシーケンス検証,クロスビュースキル決定,新たに提案されたガイダンスに基づく実行検証タスクなどの一連のタスクのベンチマークを,詳細な分析とともに構築する。
コードとデータはhttps://github.com/iSEE-Laboratory/EgoExo-Fitness/tree/mainで入手できる。
関連論文リスト
- Unlocking Exocentric Video-Language Data for Egocentric Video Representation Learning [80.37314291927889]
EMBEDは、エゴセントリックなビデオ表現学習のための、エゴセントリックなビデオ言語データを変換するために設計された手法である。
エゴセントリックなビデオは、主にクローズアップなハンドオブジェクトのインタラクションを特徴としているのに対し、エゴセントリックなビデオは、人間の活動に対してより広い視点を提供する。
視覚と言語スタイルの転送の両方を適用することで、私たちのフレームワークは新しいエゴセントリックなデータセットを作成します。
論文 参考訳(メタデータ) (2024-08-07T06:10:45Z) - Object Aware Egocentric Online Action Detection [23.504280692701272]
我々は,egocentric-specific presを既存のオンライン行動検出フレームワークに統合するObject-Aware Moduleを紹介した。
私たちの作業は最小限のオーバーヘッドで既存のモデルにシームレスに統合することができ、一貫したパフォーマンス向上をもたらします。
論文 参考訳(メタデータ) (2024-06-03T07:58:40Z) - EgoNCE++: Do Egocentric Video-Language Models Really Understand Hand-Object Interactions? [48.702973928321946]
我々は、EgoNCE++という新しい非対称なコントラスト対象をEgoHOIに導入する。
実験の結果,EgoNCE++はオープン語彙HOI認識,マルチインスタンス検索,アクション認識タスクを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:27:29Z) - EgoExoLearn: A Dataset for Bridging Asynchronous Ego- and Exo-centric View of Procedural Activities in Real World [44.34800426136217]
EgoExoLearnは、以下のプロセスで人間の実演をエミュレートするデータセットである。
EgoExoLearnには120時間にわたるエゴセントリックでデモ的なビデオデータが含まれている。
クロスビューアソシエーション、クロスビューアクションプランニング、クロスビュー参照スキルアセスメントなどのベンチマークを提示する。
論文 参考訳(メタデータ) (2024-03-24T15:00:44Z) - Put Myself in Your Shoes: Lifting the Egocentric Perspective from
Exocentric Videos [66.46812056962567]
Exocentric-to-egocentric cross-view translationは、第三者(exocentric)の観点からアクターをキャプチャするビデオ録画に基づいて、アクターの1人(egocentric)ビューを生成することを目的としている。
そこで我々は,Exo2Egoという,翻訳過程を高次構造変換と画素レベルの幻覚の2段階に分解する生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-11T01:00:00Z) - Retrieval-Augmented Egocentric Video Captioning [53.2951243928289]
EgoInstructor(エゴインストラクタ)は、意味的に関連する第三者の指導ビデオを自動的に検索する、検索拡張マルチモーダルキャプションモデルである。
我々は、エゴセントリックでエゴセントリックなビデオ機能を引き出す新しいEgoExoNCE損失でクロスビュー検索モジュールをトレーニングし、同様のアクションを記述した共有テキスト機能にアライメントすることで、より近づいた。
論文 参考訳(メタデータ) (2024-01-01T15:31:06Z) - Action Scene Graphs for Long-Form Understanding of Egocentric Videos [23.058999979457546]
Egocentric Action Scene Graphs (EASGs) は、Egocentric Videoの長期的理解のための新しい表現である。
EASGは、カメラ装着者が行うアクションの時間的に進化したグラフベースの記述を提供する。
実験とアノテーションを複製するデータセットとコードを公開します。
論文 参考訳(メタデータ) (2023-12-06T10:01:43Z) - Learning Fine-grained View-Invariant Representations from Unpaired
Ego-Exo Videos via Temporal Alignment [71.16699226211504]
我々は,エゴセントリックな映像とエゴセントリックな映像を時間内に整列させることにより,視点に不変なきめ細かいアクション特徴を学習することを提案する。
そこで本研究では,2つの鍵設計を持つ自己教師型埋め込み手法であるAE2を提案する。
評価のために,エゴ・エクソ・コンテキストにおけるきめ細かい映像理解のためのベンチマークを構築した。
論文 参考訳(メタデータ) (2023-06-08T19:54:08Z) - Egocentric Video-Language Pretraining [74.04740069230692]
Video-Language Pretrainingは、転送可能な表現を学習して、幅広いビデオテキストダウンストリームタスクを前進させることを目的としている。
我々は、最近リリースされたEgo4Dデータセットを利用して、3方向のEgoセントリックトレーニングを開拓しました。
3つのデータセットにわたる5つのエゴセントリックなダウンストリームタスクに対して、強いパフォーマンスを示します。
論文 参考訳(メタデータ) (2022-06-03T16:28:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。