論文の概要: Ego-Only: Egocentric Action Detection without Exocentric Pretraining
- arxiv url: http://arxiv.org/abs/2301.01380v1
- Date: Tue, 3 Jan 2023 22:22:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 15:29:54.687023
- Title: Ego-Only: Egocentric Action Detection without Exocentric Pretraining
- Title(参考訳): エゴオンリー:エゴセントリックな行動検出
- Authors: Huiyu Wang, Mitesh Kumar Singh, Lorenzo Torresani
- Abstract要約: Ego-Onlyは、エゴセントリック(ファーストパーソナリティー)ビデオにおける最先端のアクション検出を可能にする、最初のトレーニングパイプラインである。
- 参考スコア(独自算出の注目度): 37.89647493482049
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Ego-Only, the first training pipeline that enables
state-of-the-art action detection on egocentric (first-person) videos without
any form of exocentric (third-person) pretraining. Previous approaches found
that egocentric models cannot be trained effectively from scratch and that
exocentric representations transfer well to first-person videos. In this paper
we revisit these two observations. Motivated by the large content and
appearance gap separating the two domains, we propose a strategy that enables
effective training of egocentric models without exocentric pretraining. Our
Ego-Only pipeline is simple. It trains the video representation with a masked
autoencoder finetuned for temporal segmentation. The learned features are then
fed to an off-the-shelf temporal action localization method to detect actions.
We evaluate our approach on two established egocentric video datasets: Ego4D
and EPIC-Kitchens-100. On Ego4D, our Ego-Only is on-par with exocentric
pretraining methods that use an order of magnitude more labels. On
EPIC-Kitchens-100, our Ego-Only even outperforms exocentric pretraining (by
2.1% on verbs and by 1.8% on nouns), setting a new state-of-the-art.
- Abstract(参考訳): 我々は,エゴセントリック(一人称)ビデオにおける最先端の動作検出を可能にする最初のトレーニングパイプラインであるego-onlyを提案する。
以前のアプローチでは、エゴセントリックモデルがスクラッチから効果的にトレーニングできないことや、エクソセントリック表現が一人称ビデオにうまく移行できることが判明した。
本稿では、この2つの観察を再検討する。
本研究では,2つの領域を分けた大きな内容と外観ギャップを動機として,エゴセントリックモデルの効果的なトレーニングを可能にする戦略を提案する。
Ego-Onlyパイプラインはシンプルです。
テンポラリセグメンテーション用に微調整されたマスク付きオートエンコーダでビデオ表現を訓練する。
学習した特徴は、オフザシェルフの時間的行動ローカライゼーションメソッドに送られ、アクションを検出する。
ego4dとepic-kitchens-100という2つの確立されたエゴセントリックビデオデータセット上でのアプローチを評価した。
ego4dでは、私たちのegoのみは、より多くのラベルを使用するexocentric pretrainingメソッドとほぼ同等です。
EPIC-Kitchens-100では、Ego-Onlyはexocentric pretraining(動詞で2.1%、名詞で1.8%)を上回り、新しい最先端技術を確立しています。
関連論文リスト
- Exocentric To Egocentric Transfer For Action Recognition: A Short Survey [25.41820386246096]
エゴセントリックな視覚は、カメラ装着者の視点からシーンを捉えます。
外見中心の視覚はシーン全体のコンテキストを捉えます。
エゴとエクソビューの併用モデリングは、次世代AIエージェントの開発に不可欠である。
論文 参考訳(メタデータ) (2024-10-27T22:38:51Z) - Ego3DT: Tracking Every 3D Object in Ego-centric Videos [20.96550148331019]
本稿では,エゴ中心映像からの物体の3次元再構成と追跡のための新しいゼロショット手法を提案する。
Ego3DTは,エゴ環境内のオブジェクトの検出とセグメンテーション情報を最初に識別し,抽出する新しいフレームワークである。
また,エゴ中心ビデオにおける物体の3次元追跡軌道を安定的に作成するための動的階層化機構を革新した。
論文 参考訳(メタデータ) (2024-10-11T05:02:31Z) - Unlocking Exocentric Video-Language Data for Egocentric Video Representation Learning [80.37314291927889]
EMBEDは、エゴセントリックなビデオ表現学習のための、エゴセントリックなビデオ言語データを変換するために設計された手法である。
エゴセントリックなビデオは、主にクローズアップなハンドオブジェクトのインタラクションを特徴としているのに対し、エゴセントリックなビデオは、人間の活動に対してより広い視点を提供する。
視覚と言語スタイルの転送の両方を適用することで、私たちのフレームワークは新しいエゴセントリックなデータセットを作成します。
論文 参考訳(メタデータ) (2024-08-07T06:10:45Z) - EgoExo-Fitness: Towards Egocentric and Exocentric Full-Body Action Understanding [27.881857222850083]
EgoExo-Fitnessは新しいフルボディアクション理解データセットである。
シンクロナイズドエゴセントリックカメラと固定型エゴセントリックカメラで撮影されたフィットネス・シーケンス・ビデオが特徴。
EgoExo-Fitnessは、エゴセントリックでエゴセントリックなフルボディの行動理解を研究するための新しいリソースを提供する。
論文 参考訳(メタデータ) (2024-06-13T07:28:45Z) - Put Myself in Your Shoes: Lifting the Egocentric Perspective from
Exocentric Videos [66.46812056962567]
Exocentric-to-egocentric cross-view translationは、第三者(exocentric)の観点からアクターをキャプチャするビデオ録画に基づいて、アクターの1人(egocentric)ビューを生成することを目的としている。
そこで我々は,Exo2Egoという,翻訳過程を高次構造変換と画素レベルの幻覚の2段階に分解する生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-11T01:00:00Z) - Retrieval-Augmented Egocentric Video Captioning [53.2951243928289]
EgoInstructor(エゴインストラクタ)は、意味的に関連する第三者の指導ビデオを自動的に検索する、検索拡張マルチモーダルキャプションモデルである。
我々は、エゴセントリックでエゴセントリックなビデオ機能を引き出す新しいEgoExoNCE損失でクロスビュー検索モジュールをトレーニングし、同様のアクションを記述した共有テキスト機能にアライメントすることで、より近づいた。
論文 参考訳(メタデータ) (2024-01-01T15:31:06Z) - EgoPCA: A New Framework for Egocentric Hand-Object Interaction
Understanding [99.904140768186]
本稿では,EgoPCA(Probing, Curation and Adaption)によるEgo-HOI認識の基盤となる新しいフレームワークを提案する。
我々は、総合的なプレトレインセット、バランスの取れたテストセット、およびトレーニングファインタニング戦略を完備した新しいベースラインにコントリビュートする。
私たちは、私たちのデータと発見が、Ego-HOIの理解の新しい道を開くと信じています。
論文 参考訳(メタデータ) (2023-09-05T17:51:16Z) - Ego-Exo: Transferring Visual Representations from Third-person to
First-person Videos [92.38049744463149]
大規模第3者映像データセットを用いた自己中心型映像モデルの事前訓練手法について紹介する。
私たちのアイデアは、重要なエゴセントリック特性を予測する第三者ビデオから潜在信号を見つけることです。
実験の結果,Ego-Exoフレームワークは標準ビデオモデルにシームレスに統合可能であることがわかった。
論文 参考訳(メタデータ) (2021-04-16T06:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。