論文の概要: Object Aware Egocentric Online Action Detection
- arxiv url: http://arxiv.org/abs/2406.01079v1
- Date: Mon, 3 Jun 2024 07:58:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 01:58:18.648498
- Title: Object Aware Egocentric Online Action Detection
- Title(参考訳): 自己中心型オンライン行動検出を意識した物体認識
- Authors: Joungbin An, Yunsu Park, Hyolim Kang, Seon Joo Kim,
- Abstract要約: 我々は,egocentric-specific presを既存のオンライン行動検出フレームワークに統合するObject-Aware Moduleを紹介した。
私たちの作業は最小限のオーバーヘッドで既存のモデルにシームレスに統合することができ、一貫したパフォーマンス向上をもたらします。
- 参考スコア(独自算出の注目度): 23.504280692701272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advancements in egocentric video datasets like Ego4D, EPIC-Kitchens, and Ego-Exo4D have enriched the study of first-person human interactions, which is crucial for applications in augmented reality and assisted living. Despite these advancements, current Online Action Detection methods, which efficiently detect actions in streaming videos, are predominantly designed for exocentric views and thus fail to capitalize on the unique perspectives inherent to egocentric videos. To address this gap, we introduce an Object-Aware Module that integrates egocentric-specific priors into existing OAD frameworks, enhancing first-person footage interpretation. Utilizing object-specific details and temporal dynamics, our module improves scene understanding in detecting actions. Validated extensively on the Epic-Kitchens 100 dataset, our work can be seamlessly integrated into existing models with minimal overhead and bring consistent performance enhancements, marking an important step forward in adapting action detection systems to egocentric video analysis.
- Abstract(参考訳): Ego4D、EPIC-Kitchens、Ego-Exo4Dといったエゴセントリックなビデオデータセットの進歩は、拡張現実や生活支援の応用に欠かせない、一人称人間のインタラクションの研究を豊かにしている。
これらの進歩にもかかわらず、ストリーミングビデオ中のアクションを効率的に検出する現在のオンラインアクション検出方法は、主に外向的な視点のために設計されており、したがって、自我中心の動画に固有のユニークな視点を生かしていない。
このギャップに対処するため,既存のOADフレームワークにエゴセントリックな事前情報を統合したObject-Aware Moduleを導入し,一対一の映像解釈を強化した。
我々のモジュールは、オブジェクト固有の詳細と時間的ダイナミクスを利用して、アクションの検出におけるシーン理解を改善する。
Epic-Kitchens 100データセットで広く検証された私たちの作業は、オーバーヘッドを最小限にして既存のモデルにシームレスに統合することができ、一貫したパフォーマンス向上を実現しています。
関連論文リスト
- EgoNCE++: Do Egocentric Video-Language Models Really Understand Hand-Object Interactions? [48.702973928321946]
我々は、EgoNCE++という新しい非対称なコントラスト対象をEgoHOIに導入する。
実験の結果,EgoNCE++はオープン語彙HOI認識,マルチインスタンス検索,アクション認識タスクを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:27:29Z) - EgoChoir: Capturing 3D Human-Object Interaction Regions from Egocentric Views [51.53089073920215]
Egocentric Human-Object Interaction(HOI)を理解することは、人間中心の知覚の基本的な側面であり、AR/VRや組み込みAIといった応用を促進する。
既存の手法は主にHOIの観測を利用して、外心的な視点から相互作用領域を捉えている。
EgoChoirは、オブジェクト構造と、外見と頭部運動に固有の相互作用コンテキストを結びつけて、オブジェクトの余裕を明らかにする。
論文 参考訳(メタデータ) (2024-05-22T14:03:48Z) - X-MIC: Cross-Modal Instance Conditioning for Egocentric Action Generalization [56.75782714530429]
我々はX-MICと呼ぶクロスモーダル適応フレームワークを提案する。
私たちのパイプラインは、凍結したテキストの埋め込みを、共有された埋め込み空間内で、それぞれのエゴセントリックなビデオにアライメントすることを学びました。
これにより、各エゴセントリックビデオへのテキスト埋め込みのアライメントが向上し、データセットの一般化が大幅に向上する。
論文 参考訳(メタデータ) (2024-03-28T19:45:35Z) - Learning Fine-grained View-Invariant Representations from Unpaired
Ego-Exo Videos via Temporal Alignment [71.16699226211504]
我々は,エゴセントリックな映像とエゴセントリックな映像を時間内に整列させることにより,視点に不変なきめ細かいアクション特徴を学習することを提案する。
そこで本研究では,2つの鍵設計を持つ自己教師型埋め込み手法であるAE2を提案する。
評価のために,エゴ・エクソ・コンテキストにおけるきめ細かい映像理解のためのベンチマークを構築した。
論文 参考訳(メタデータ) (2023-06-08T19:54:08Z) - Cross-view Action Recognition Understanding From Exocentric to Egocentric Perspective [13.776455033015216]
本稿では,アクション認識のための新しいクロスビュー学習手法を提案する。
まず,トランスフォーマーの自己注意機構に幾何学的制約を新たに導入する。
そこで本稿では, 自己意識のメカニズムを学習し, 知識を視点間で伝達するために, 自己意識を学習するために, 未確認のクロスビューデータに基づいて学習した, 新たな自己意識の喪失を提案する。
論文 参考訳(メタデータ) (2023-05-25T04:14:49Z) - Enhancing Next Active Object-based Egocentric Action Anticipation with
Guided Attention [45.60789439017625]
個人ビデオにおける短期的行動予測(STA)は難しい課題である。
本稿では,オブジェクト間のガイド付きアテンション機構を適用した新しいアプローチを提案する。
提案手法であるGANOは,マルチモーダル,エンドツーエンド,シングルトランスベースのネットワークである。
論文 参考訳(メタデータ) (2023-05-22T11:56:10Z) - Egocentric Audio-Visual Object Localization [51.434212424829525]
本研究では,エゴモーションを明示的に処理する時空間アグリゲーションモジュールを提案する。
エゴモーションの効果は、時間的幾何変換を推定し、それを利用して視覚的表現を更新することによって緩和される。
視覚的に指示された音声表現をアンタングルすることで、モーダルな局所化の堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-03-23T17:43:11Z) - SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric
Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。
OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2022-04-10T23:27:19Z) - Sensor-Augmented Egocentric-Video Captioning with Dynamic Modal
Attention [0.9668407688201357]
センサを付加したエゴセントリック・ビデオキャプションの新しい課題を提案する。
我々は、ウェアラブルセンサーデータを補助情報として利用し、自我中心視における固有の問題を緩和する。
論文 参考訳(メタデータ) (2021-09-07T09:22:09Z) - Self-supervised Video Object Segmentation by Motion Grouping [79.13206959575228]
動きの手がかりを利用して物体をセグメンテーションできるコンピュータビジョンシステムを開発した。
本稿では,光フローフレームを一次オブジェクトと背景に分割するトランスフォーマーの簡単なバリエーションを紹介する。
提案したアーキテクチャを公開ベンチマーク(DAVIS2016, SegTrackv2, FBMS59)で評価する。
論文 参考訳(メタデータ) (2021-04-15T17:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。