論文の概要: Ego-Only: Egocentric Action Detection without Exocentric Transferring
- arxiv url: http://arxiv.org/abs/2301.01380v2
- Date: Fri, 19 May 2023 22:23:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 04:38:27.004337
- Title: Ego-Only: Egocentric Action Detection without Exocentric Transferring
- Title(参考訳): egoのみ:エゴセントリックな行動検出
- Authors: Huiyu Wang, Mitesh Kumar Singh, Lorenzo Torresani
- Abstract要約: Ego-Onlyは,エゴセントリックな(ファーストパーソナリティー)ビデオに対して,最先端のアクション検出を可能にする最初のアプローチである。
- 参考スコア(独自算出の注目度): 37.89647493482049
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Ego-Only, the first approach that enables state-of-the-art action
detection on egocentric (first-person) videos without any form of exocentric
(third-person) transferring. Despite the content and appearance gap separating
the two domains, large-scale exocentric transferring has been the default
choice for egocentric action detection. This is because prior works found that
egocentric models are difficult to train from scratch and that transferring
from exocentric representations leads to improved accuracy. However, in this
paper, we revisit this common belief. Motivated by the large gap separating the
two domains, we propose a strategy that enables effective training of
egocentric models without exocentric transferring. Our Ego-Only approach is
simple. It trains the video representation with a masked autoencoder finetuned
for temporal segmentation. The learned features are then fed to an
off-the-shelf temporal action localization method to detect actions. We find
that this renders exocentric transferring unnecessary by showing remarkably
strong results achieved by this simple Ego-Only approach on three established
egocentric video datasets: Ego4D, EPIC-Kitchens-100, and Charades-Ego. On both
action detection and action recognition, Ego-Only outperforms previous best
exocentric transferring methods that use orders of magnitude more labels.
Ego-Only sets new state-of-the-art results on these datasets and benchmarks
without exocentric data.
- Abstract(参考訳): 我々は,エゴセントリック(一人称)ビデオにおける最先端の動作検出を可能にする最初のアプローチであるego-onlyを提案する。
2つのドメインを分ける内容と外観のギャップにもかかわらず、大規模なエキソセントリックトランスファーは、エゴセントリックなアクション検出のデフォルト選択となっている。
これは、エゴセントリックモデルがゼロから訓練することが困難であることや、異中心表現からの転送が精度の向上につながることによる。
しかし,本稿では,この共通の信念を再検討する。
2つの領域を分ける大きなギャップに動機づけられた,エゴセントリックモデルの効果的なトレーニングを可能にする戦略を提案する。
Ego-Onlyアプローチはシンプルです。
テンポラリセグメンテーション用に微調整されたマスク付きオートエンコーダでビデオ表現を訓練する。
学習した特徴は、オフザシェルフの時間的行動ローカライゼーションメソッドに送られ、アクションを検出する。
この単純なEgo-Onlyアプローチは、Ego4D、EPIC-Kitchens-100、Charades-Egoの3つのエゴセントリックなビデオデータセットに対して、極めて強力な結果をもたらす。
アクション検出とアクション認識の両方において、egoのみは、より桁違いに多くのラベルを使用する以前のベストエクソセントリックトランスファーメソッドよりも優れている。
ego-onlyは、エキソセントリックなデータなしで、これらのデータセットとベンチマークに新しい最先端の結果をセットする。
関連論文リスト
- Exocentric To Egocentric Transfer For Action Recognition: A Short Survey [25.41820386246096]
エゴセントリックな視覚は、カメラ装着者の視点からシーンを捉えます。
外見中心の視覚はシーン全体のコンテキストを捉えます。
エゴとエクソビューの併用モデリングは、次世代AIエージェントの開発に不可欠である。
論文 参考訳(メタデータ) (2024-10-27T22:38:51Z) - Ego3DT: Tracking Every 3D Object in Ego-centric Videos [20.96550148331019]
本稿では,エゴ中心映像からの物体の3次元再構成と追跡のための新しいゼロショット手法を提案する。
Ego3DTは,エゴ環境内のオブジェクトの検出とセグメンテーション情報を最初に識別し,抽出する新しいフレームワークである。
また,エゴ中心ビデオにおける物体の3次元追跡軌道を安定的に作成するための動的階層化機構を革新した。
論文 参考訳(メタデータ) (2024-10-11T05:02:31Z) - Unlocking Exocentric Video-Language Data for Egocentric Video Representation Learning [80.37314291927889]
EMBEDは、エゴセントリックなビデオ表現学習のための、エゴセントリックなビデオ言語データを変換するために設計された手法である。
エゴセントリックなビデオは、主にクローズアップなハンドオブジェクトのインタラクションを特徴としているのに対し、エゴセントリックなビデオは、人間の活動に対してより広い視点を提供する。
視覚と言語スタイルの転送の両方を適用することで、私たちのフレームワークは新しいエゴセントリックなデータセットを作成します。
論文 参考訳(メタデータ) (2024-08-07T06:10:45Z) - EgoExo-Fitness: Towards Egocentric and Exocentric Full-Body Action Understanding [27.881857222850083]
EgoExo-Fitnessは新しいフルボディアクション理解データセットである。
シンクロナイズドエゴセントリックカメラと固定型エゴセントリックカメラで撮影されたフィットネス・シーケンス・ビデオが特徴。
EgoExo-Fitnessは、エゴセントリックでエゴセントリックなフルボディの行動理解を研究するための新しいリソースを提供する。
論文 参考訳(メタデータ) (2024-06-13T07:28:45Z) - Put Myself in Your Shoes: Lifting the Egocentric Perspective from
Exocentric Videos [66.46812056962567]
Exocentric-to-egocentric cross-view translationは、第三者(exocentric)の観点からアクターをキャプチャするビデオ録画に基づいて、アクターの1人(egocentric)ビューを生成することを目的としている。
そこで我々は,Exo2Egoという,翻訳過程を高次構造変換と画素レベルの幻覚の2段階に分解する生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-11T01:00:00Z) - Retrieval-Augmented Egocentric Video Captioning [53.2951243928289]
EgoInstructor(エゴインストラクタ)は、意味的に関連する第三者の指導ビデオを自動的に検索する、検索拡張マルチモーダルキャプションモデルである。
我々は、エゴセントリックでエゴセントリックなビデオ機能を引き出す新しいEgoExoNCE損失でクロスビュー検索モジュールをトレーニングし、同様のアクションを記述した共有テキスト機能にアライメントすることで、より近づいた。
論文 参考訳(メタデータ) (2024-01-01T15:31:06Z) - EgoPCA: A New Framework for Egocentric Hand-Object Interaction
Understanding [99.904140768186]
本稿では,EgoPCA(Probing, Curation and Adaption)によるEgo-HOI認識の基盤となる新しいフレームワークを提案する。
我々は、総合的なプレトレインセット、バランスの取れたテストセット、およびトレーニングファインタニング戦略を完備した新しいベースラインにコントリビュートする。
私たちは、私たちのデータと発見が、Ego-HOIの理解の新しい道を開くと信じています。
論文 参考訳(メタデータ) (2023-09-05T17:51:16Z) - Ego-Exo: Transferring Visual Representations from Third-person to
First-person Videos [92.38049744463149]
大規模第3者映像データセットを用いた自己中心型映像モデルの事前訓練手法について紹介する。
私たちのアイデアは、重要なエゴセントリック特性を予測する第三者ビデオから潜在信号を見つけることです。
実験の結果,Ego-Exoフレームワークは標準ビデオモデルにシームレスに統合可能であることがわかった。
論文 参考訳(メタデータ) (2021-04-16T06:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。