論文の概要: Guided Attention for Next Active Object @ EGO4D STA Challenge
- arxiv url: http://arxiv.org/abs/2305.16066v2
- Date: Tue, 30 May 2023 10:17:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 00:12:37.588193
- Title: Guided Attention for Next Active Object @ EGO4D STA Challenge
- Title(参考訳): EGO4D STAの次のアクティブオブジェクトへのガイド
- Authors: Sanket Thakur, Cigdem Beyan, Pietro Morerio, Vittorio Murino, Alessio
Del Bue
- Abstract要約: 高速ネットワークに適用したガイドアテンションを使って、StillFastの上にモデルを構築します。
EGO4D短期オブジェクトインタラクション予測チャレンジの課題テストセットにおいて,本モデルにより検証セットの性能が向上し,SOTA(State-of-the-art)結果が得られた。
- 参考スコア(独自算出の注目度): 45.60789439017625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this technical report, we describe the Guided-Attention mechanism based
solution for the short-term anticipation (STA) challenge for the EGO4D
challenge. It combines the object detections, and the spatiotemporal features
extracted from video clips, enhancing the motion and contextual information,
and further decoding the object-centric and motion-centric information to
address the problem of STA in egocentric videos. For the challenge, we build
our model on top of StillFast with Guided Attention applied on fast network.
Our model obtains better performance on the validation set and also achieves
state-of-the-art (SOTA) results on the challenge test set for EGO4D Short-Term
Object Interaction Anticipation Challenge.
- Abstract(参考訳): 本稿では,EGO4D課題に対する短期予測(STA)課題に対するガイド・アテンション機構に基づくソリューションについて述べる。
オブジェクト検出とビデオクリップから抽出した時空間的特徴を組み合わせて、動きと文脈情報を強化し、さらにオブジェクト中心および動き中心の情報をデコードして、エゴセントリックビデオにおけるSTAの問題に対処する。
この課題に対して、我々は高速ネットワークに注意を向けながら、 stillfast 上にモデルを構築します。
本モデルは,検証セットの性能向上と,ego4d短期オブジェクトインタラクション予測チャレンジの課題テストセットにおける最先端(sota)結果の達成を図っている。
関連論文リスト
- Harnessing Temporal Causality for Advanced Temporal Action Detection [53.654457142657236]
本稿では,因果的注意と因果的マンバを組み合わせたCausalTADを提案する。
Ego4D Challenge 2024では,EPIC-Kitchens Challenge 2024では行動認識,行動検出,音声によるインタラクション検出トラックで1位,Ego4D Challenge 2024ではMoment Queriesトラックで1位にランクインした。
論文 参考訳(メタデータ) (2024-07-25T06:03:02Z) - EgoVideo: Exploring Egocentric Foundation Model and Downstream Adaptation [54.32133648259802]
CVPR 2024のEgoVis Challengesには、Ego4Dチャレンジの5トラックとEPIC-Kitchensチャレンジの3トラックが含まれています。
ビデオ言語2towerモデルを構築し,厳密に整理された自我中心型ビデオデータを活用することにより,EgoVideoという新しい基礎モデルを導入する。
このモデルは、エゴセントリックなビデオの特徴に特化して設計されており、当社のコンペティションへの強力なサポートを提供する。
論文 参考訳(メタデータ) (2024-06-26T05:01:37Z) - Object Aware Egocentric Online Action Detection [23.504280692701272]
我々は,egocentric-specific presを既存のオンライン行動検出フレームワークに統合するObject-Aware Moduleを紹介した。
私たちの作業は最小限のオーバーヘッドで既存のモデルにシームレスに統合することができ、一貫したパフォーマンス向上をもたらします。
論文 参考訳(メタデータ) (2024-06-03T07:58:40Z) - DVIS-DAQ: Improving Video Segmentation via Dynamic Anchor Queries [60.09774333024783]
動的アンカークエリ(DAQ)を導入し、アンカーとターゲットクエリ間の遷移ギャップを短くする。
また,クエリレベルのオブジェクトEmergence and Disappearance Simulation(EDS)戦略を導入する。
実験により、DVIS-DAQは5つの主流ビデオセグメンテーションベンチマーク上で、新しい最先端(SOTA)性能を達成することが示された。
論文 参考訳(メタデータ) (2024-03-29T17:58:50Z) - Enhancing Next Active Object-based Egocentric Action Anticipation with
Guided Attention [45.60789439017625]
個人ビデオにおける短期的行動予測(STA)は難しい課題である。
本稿では,オブジェクト間のガイド付きアテンション機構を適用した新しいアプローチを提案する。
提案手法であるGANOは,マルチモーダル,エンドツーエンド,シングルトランスベースのネットワークである。
論文 参考訳(メタデータ) (2023-05-22T11:56:10Z) - InternVideo-Ego4D: A Pack of Champion Solutions to Ego4D Challenges [66.62885923201543]
Ego4D Challengeで5トラックにチャンピオンソリューションを提示します。
ビデオファンデーションモデルであるInternVideoを5つのEgo4Dタスクに活用しています。
InternVideo-Ego4Dは、強力な基盤モデルを下流のエゴ中心のビデオ理解タスクに適用するための効果的なパラダイムである。
論文 参考訳(メタデータ) (2022-11-17T13:45:06Z) - Weakly Supervised Human-Object Interaction Detection in Video via
Contrastive Spatiotemporal Regions [81.88294320397826]
システムは、ビデオに人間と物体の相互作用が存在するか、あるいは人間と物体の実際の位置を知らない。
文節から収集した人-物間相互作用による6.5k以上のビデオからなるデータセットを提案する。
ビデオデータセットのアノテーションに適応した弱教師付きベースラインの性能向上を実証した。
論文 参考訳(メタデータ) (2021-10-07T15:30:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。