論文の概要: Improving Keystep Recognition in Ego-Video via Dexterous Focus
- arxiv url: http://arxiv.org/abs/2506.00827v1
- Date: Sun, 01 Jun 2025 04:22:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.683615
- Title: Improving Keystep Recognition in Ego-Video via Dexterous Focus
- Title(参考訳): Dexterous FocusによるEgo-Videoのキーステップ認識の改善
- Authors: Zachary Chavis, Stephen J. Guy, Hyun Soo Park,
- Abstract要約: 我々は、自我中心的な視点から人間の活動を理解するという課題に対処する。
本研究では,エゴビデオの入力を手作業による安定な映像に制限することにより,これらの課題に対処する枠組みを提案する。
- 参考スコア(独自算出の注目度): 18.14234312389889
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we address the challenge of understanding human activities from an egocentric perspective. Traditional activity recognition techniques face unique challenges in egocentric videos due to the highly dynamic nature of the head during many activities. We propose a framework that seeks to address these challenges in a way that is independent of network architecture by restricting the ego-video input to a stabilized, hand-focused video. We demonstrate that this straightforward video transformation alone outperforms existing egocentric video baselines on the Ego-Exo4D Fine-Grained Keystep Recognition benchmark without requiring any alteration of the underlying model infrastructure.
- Abstract(参考訳): 本稿では,エゴセントリックな視点から人間の活動を理解するという課題に対処する。
伝統的な活動認識技術は、多くの活動において頭部の非常にダイナミックな性質のために、エゴセントリックなビデオに固有の課題に直面している。
本稿では,エゴビデオの入力を手作業による安定化ビデオに制限することにより,ネットワークアーキテクチャに依存しない方法でこれらの課題に対処するフレームワークを提案する。
この簡単なビデオ変換だけで、基盤となるモデルインフラストラクチャの変更を必要とせずに、Ego-Exo4D Fine-Grained Keystep Recognitionベンチマーク上の既存のエゴセントリックなビデオベースラインを上回ります。
関連論文リスト
- EgoVideo: Exploring Egocentric Foundation Model and Downstream Adaptation [54.32133648259802]
CVPR 2024のEgoVis Challengesには、Ego4Dチャレンジの5トラックとEPIC-Kitchensチャレンジの3トラックが含まれています。
ビデオ言語2towerモデルを構築し,厳密に整理された自我中心型ビデオデータを活用することにより,EgoVideoという新しい基礎モデルを導入する。
このモデルは、エゴセントリックなビデオの特徴に特化して設計されており、当社のコンペティションへの強力なサポートを提供する。
論文 参考訳(メタデータ) (2024-06-26T05:01:37Z) - Object Aware Egocentric Online Action Detection [23.504280692701272]
我々は,egocentric-specific presを既存のオンライン行動検出フレームワークに統合するObject-Aware Moduleを紹介した。
私たちの作業は最小限のオーバーヘッドで既存のモデルにシームレスに統合することができ、一貫したパフォーマンス向上をもたらします。
論文 参考訳(メタデータ) (2024-06-03T07:58:40Z) - Retrieval-Augmented Egocentric Video Captioning [53.2951243928289]
EgoInstructor(エゴインストラクタ)は、意味的に関連する第三者の指導ビデオを自動的に検索する、検索拡張マルチモーダルキャプションモデルである。
我々は、エゴセントリックでエゴセントリックなビデオ機能を引き出す新しいEgoExoNCE損失でクロスビュー検索モジュールをトレーニングし、同様のアクションを記述した共有テキスト機能にアライメントすることで、より近づいた。
論文 参考訳(メタデータ) (2024-01-01T15:31:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。