論文の概要: Ego-Only: Egocentric Action Detection without Exocentric Transferring
- arxiv url: http://arxiv.org/abs/2301.01380v2
- Date: Fri, 19 May 2023 22:23:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 04:38:27.004337
- Title: Ego-Only: Egocentric Action Detection without Exocentric Transferring
- Title(参考訳): egoのみ:エゴセントリックな行動検出
- Authors: Huiyu Wang, Mitesh Kumar Singh, Lorenzo Torresani
- Abstract要約: Ego-Onlyは,エゴセントリックな(ファーストパーソナリティー)ビデオに対して,最先端のアクション検出を可能にする最初のアプローチである。
- 参考スコア(独自算出の注目度): 37.89647493482049
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Ego-Only, the first approach that enables state-of-the-art action
detection on egocentric (first-person) videos without any form of exocentric
(third-person) transferring. Despite the content and appearance gap separating
the two domains, large-scale exocentric transferring has been the default
choice for egocentric action detection. This is because prior works found that
egocentric models are difficult to train from scratch and that transferring
from exocentric representations leads to improved accuracy. However, in this
paper, we revisit this common belief. Motivated by the large gap separating the
two domains, we propose a strategy that enables effective training of
egocentric models without exocentric transferring. Our Ego-Only approach is
simple. It trains the video representation with a masked autoencoder finetuned
for temporal segmentation. The learned features are then fed to an
off-the-shelf temporal action localization method to detect actions. We find
that this renders exocentric transferring unnecessary by showing remarkably
strong results achieved by this simple Ego-Only approach on three established
egocentric video datasets: Ego4D, EPIC-Kitchens-100, and Charades-Ego. On both
action detection and action recognition, Ego-Only outperforms previous best
exocentric transferring methods that use orders of magnitude more labels.
Ego-Only sets new state-of-the-art results on these datasets and benchmarks
without exocentric data.
- Abstract(参考訳): 我々は,エゴセントリック(一人称)ビデオにおける最先端の動作検出を可能にする最初のアプローチであるego-onlyを提案する。
2つのドメインを分ける内容と外観のギャップにもかかわらず、大規模なエキソセントリックトランスファーは、エゴセントリックなアクション検出のデフォルト選択となっている。
これは、エゴセントリックモデルがゼロから訓練することが困難であることや、異中心表現からの転送が精度の向上につながることによる。
しかし,本稿では,この共通の信念を再検討する。
2つの領域を分ける大きなギャップに動機づけられた,エゴセントリックモデルの効果的なトレーニングを可能にする戦略を提案する。
Ego-Onlyアプローチはシンプルです。
テンポラリセグメンテーション用に微調整されたマスク付きオートエンコーダでビデオ表現を訓練する。
学習した特徴は、オフザシェルフの時間的行動ローカライゼーションメソッドに送られ、アクションを検出する。
この単純なEgo-Onlyアプローチは、Ego4D、EPIC-Kitchens-100、Charades-Egoの3つのエゴセントリックなビデオデータセットに対して、極めて強力な結果をもたらす。
アクション検出とアクション認識の両方において、egoのみは、より桁違いに多くのラベルを使用する以前のベストエクソセントリックトランスファーメソッドよりも優れている。
ego-onlyは、エキソセントリックなデータなしで、これらのデータセットとベンチマークに新しい最先端の結果をセットする。
関連論文リスト
- Put Myself in Your Shoes: Lifting the Egocentric Perspective from
Exocentric Videos [66.46812056962567]
Exocentric-to-egocentric cross-view translationは、第三者(exocentric)の観点からアクターをキャプチャするビデオ録画に基づいて、アクターの1人(egocentric)ビューを生成することを目的としている。
そこで我々は,Exo2Egoという,翻訳過程を高次構造変換と画素レベルの幻覚の2段階に分解する生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-11T01:00:00Z) - Retrieval-Augmented Egocentric Video Captioning [55.96764681240016]
EgoInstructor(エゴインストラクタ)は、意味的に関連する第三者の指導ビデオを自動的に検索する、検索拡張マルチモーダルキャプションモデルである。
我々は、エゴセントリックでエゴセントリックなビデオ機能を引き寄せる新しいEgoExoNCE損失で、クロスビュー検索モジュールをトレーニングする。
論文 参考訳(メタデータ) (2024-01-01T15:31:06Z) - EgoPCA: A New Framework for Egocentric Hand-Object Interaction
Understanding [99.904140768186]
本稿では,EgoPCA(Probing, Curation and Adaption)によるEgo-HOI認識の基盤となる新しいフレームワークを提案する。
我々は、総合的なプレトレインセット、バランスの取れたテストセット、およびトレーニングファインタニング戦略を完備した新しいベースラインにコントリビュートする。
私たちは、私たちのデータと発見が、Ego-HOIの理解の新しい道を開くと信じています。
論文 参考訳(メタデータ) (2023-09-05T17:51:16Z) - Ego-Body Pose Estimation via Ego-Head Pose Estimation [22.08240141115053]
エゴセントリックなビデオシーケンスから3次元の人間の動きを推定することは、人間の行動理解において重要な役割を担い、VR/ARに様々な応用がある。
Ego-Head Pose Estimation (EgoEgo) と呼ばれる新しい手法を提案する。
この頭と体のポーズのゆがみは、ペア化されたエゴセントリックなビデオと3D人間の動きでデータセットをトレーニングする必要をなくす。
論文 参考訳(メタデータ) (2022-12-09T02:25:20Z) - Egocentric Video-Language Pretraining [74.04740069230692]
Video-Language Pretrainingは、転送可能な表現を学習して、幅広いビデオテキストダウンストリームタスクを前進させることを目的としている。
我々は、最近リリースされたEgo4Dデータセットを利用して、3方向のEgoセントリックトレーニングを開拓しました。
3つのデータセットにわたる5つのエゴセントリックなダウンストリームタスクに対して、強いパフォーマンスを示します。
論文 参考訳(メタデータ) (2022-06-03T16:28:58Z) - Ego-Exo: Transferring Visual Representations from Third-person to
First-person Videos [92.38049744463149]
大規模第3者映像データセットを用いた自己中心型映像モデルの事前訓練手法について紹介する。
私たちのアイデアは、重要なエゴセントリック特性を予測する第三者ビデオから潜在信号を見つけることです。
実験の結果,Ego-Exoフレームワークは標準ビデオモデルにシームレスに統合可能であることがわかった。
論文 参考訳(メタデータ) (2021-04-16T06:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。