論文の概要: EgoPCA: A New Framework for Egocentric Hand-Object Interaction
Understanding
- arxiv url: http://arxiv.org/abs/2309.02423v1
- Date: Tue, 5 Sep 2023 17:51:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 13:33:12.469989
- Title: EgoPCA: A New Framework for Egocentric Hand-Object Interaction
Understanding
- Title(参考訳): EgoPCA: Egocentric Hand-Object Interaction Understandingの新しいフレームワーク
- Authors: Yue Xu, Yong-Lu Li, Zhemin Huang, Michael Xu Liu, Cewu Lu, Yu-Wing
Tai, Chi-Keung Tang
- Abstract要約: 本稿では,EgoPCA(Probing, Curation and Adaption)によるEgo-HOI認識の基盤となる新しいフレームワークを提案する。
我々は、総合的なプレトレインセット、バランスの取れたテストセット、およびトレーニングファインタニング戦略を完備した新しいベースラインにコントリビュートする。
私たちは、私たちのデータと発見が、Ego-HOIの理解の新しい道を開くと信じています。
- 参考スコア(独自算出の注目度): 99.904140768186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the surge in attention to Egocentric Hand-Object Interaction (Ego-HOI),
large-scale datasets such as Ego4D and EPIC-KITCHENS have been proposed.
However, most current research is built on resources derived from third-person
video action recognition. This inherent domain gap between first- and
third-person action videos, which have not been adequately addressed before,
makes current Ego-HOI suboptimal. This paper rethinks and proposes a new
framework as an infrastructure to advance Ego-HOI recognition by Probing,
Curation and Adaption (EgoPCA). We contribute comprehensive pre-train sets,
balanced test sets and a new baseline, which are complete with a
training-finetuning strategy. With our new framework, we not only achieve
state-of-the-art performance on Ego-HOI benchmarks but also build several new
and effective mechanisms and settings to advance further research. We believe
our data and the findings will pave a new way for Ego-HOI understanding. Code
and data are available at https://mvig-rhos.com/ego_pca
- Abstract(参考訳): ego-hoiへの注目が高まり、ego4dやepic-kitchensといった大規模データセットが提案されている。
しかし、現在の研究のほとんどは、第三者の映像行動認識から得られたリソースに基づいている。
この一対一のアクションビデオと三対一のアクションビデオのドメインギャップは、これまで適切に対処されていなかったが、現在のEgo-HOIは準最適である。
本稿では,EgoPCA(Probing, Curation and Adaption)によるEgo-HOI認識を促進するための基盤として,新たなフレームワークを提案する。
総合的な事前トレーニングセット,バランスの取れたテストセット,新たなベースラインを,トレーニング調整戦略によって提供します。
新しいフレームワークでは、ego-hoiベンチマークで最先端のパフォーマンスを実現するだけでなく、さらなる研究を進めるために、新しく効果的なメカニズムと設定をいくつか構築します。
われわれのデータと発見は、Ego-HOIの理解に新たな道を開くだろう。
コードとデータはhttps://mvig-rhos.com/ego_pcaで入手できる。
関連論文リスト
- MM-Ego: Towards Building Egocentric Multimodal LLMs [72.47344411599322]
本研究の目的は,エゴセントリックな映像理解のためのマルチモーダル基盤モデルの構築である。
我々は,人間による注釈付きデータに基づいて,30秒から1時間に及ぶエゴセントリックビデオの高品質なQAサンプルを効率よく生成するデータエンジンを開発した。
我々は、629の動画と7,026の質問でエゴセントリックなQAベンチマークを作成し、様々な長さのビデオで視覚的詳細を認識・記憶するモデルの能力を評価する。
論文 参考訳(メタデータ) (2024-10-09T17:59:59Z) - EgoExo-Fitness: Towards Egocentric and Exocentric Full-Body Action Understanding [27.881857222850083]
EgoExo-Fitnessは新しいフルボディアクション理解データセットである。
シンクロナイズドエゴセントリックカメラと固定型エゴセントリックカメラで撮影されたフィットネス・シーケンス・ビデオが特徴。
EgoExo-Fitnessは、エゴセントリックでエゴセントリックなフルボディの行動理解を研究するための新しいリソースを提供する。
論文 参考訳(メタデータ) (2024-06-13T07:28:45Z) - Object Aware Egocentric Online Action Detection [23.504280692701272]
我々は,egocentric-specific presを既存のオンライン行動検出フレームワークに統合するObject-Aware Moduleを紹介した。
私たちの作業は最小限のオーバーヘッドで既存のモデルにシームレスに統合することができ、一貫したパフォーマンス向上をもたらします。
論文 参考訳(メタデータ) (2024-06-03T07:58:40Z) - Retrieval-Augmented Egocentric Video Captioning [53.2951243928289]
EgoInstructor(エゴインストラクタ)は、意味的に関連する第三者の指導ビデオを自動的に検索する、検索拡張マルチモーダルキャプションモデルである。
我々は、エゴセントリックでエゴセントリックなビデオ機能を引き出す新しいEgoExoNCE損失でクロスビュー検索モジュールをトレーニングし、同様のアクションを記述した共有テキスト機能にアライメントすることで、より近づいた。
論文 参考訳(メタデータ) (2024-01-01T15:31:06Z) - EgoDistill: Egocentric Head Motion Distillation for Efficient Video
Understanding [90.9111678470214]
本稿では,重度エゴセントリックビデオクリップの再構成を学習する蒸留法であるEgoDistillを提案する。
提案手法により効率が大幅に向上し,200倍のGFLOPが要求される。
Ego4D と EPICKitchens のデータセット上での有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:39:23Z) - Ego-Only: Egocentric Action Detection without Exocentric Transferring [37.89647493482049]
Ego-Onlyは,エゴセントリックな(ファーストパーソナリティー)ビデオに対して,最先端のアクション検出を可能にする最初のアプローチである。
論文 参考訳(メタデータ) (2023-01-03T22:22:34Z) - Egocentric Video-Language Pretraining [74.04740069230692]
Video-Language Pretrainingは、転送可能な表現を学習して、幅広いビデオテキストダウンストリームタスクを前進させることを目的としている。
我々は、最近リリースされたEgo4Dデータセットを利用して、3方向のEgoセントリックトレーニングを開拓しました。
3つのデータセットにわたる5つのエゴセントリックなダウンストリームタスクに対して、強いパフォーマンスを示します。
論文 参考訳(メタデータ) (2022-06-03T16:28:58Z) - Ego-Exo: Transferring Visual Representations from Third-person to
First-person Videos [92.38049744463149]
大規模第3者映像データセットを用いた自己中心型映像モデルの事前訓練手法について紹介する。
私たちのアイデアは、重要なエゴセントリック特性を予測する第三者ビデオから潜在信号を見つけることです。
実験の結果,Ego-Exoフレームワークは標準ビデオモデルにシームレスに統合可能であることがわかった。
論文 参考訳(メタデータ) (2021-04-16T06:10:10Z) - Enhanced Self-Perception in Mixed Reality: Egocentric Arm Segmentation
and Database with Automatic Labelling [1.0149624140985476]
本研究は、拡張仮想性における自己認識を改善するために、自我中心の腕のセグメンテーションに焦点を当てる。
GTEA Gaze+, EDSH, EgoHands, Ego Youtube Hands, THU-Read, TEgO, FPAB, Ego Gesture などの実効自我中心のデータセットについて報告する。
このタスクに対するEgoArmデータセットの適合性を確認し、元のネットワークに対して最大40%の改善を実現した。
論文 参考訳(メタデータ) (2020-03-27T12:09:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。