論文の概要: Technical Report for Ego4D Long-Term Action Anticipation Challenge 2025
- arxiv url: http://arxiv.org/abs/2506.02550v1
- Date: Tue, 03 Jun 2025 07:36:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.395161
- Title: Technical Report for Ego4D Long-Term Action Anticipation Challenge 2025
- Title(参考訳): Ego4D長期活動予測チャレンジ2025の実施報告
- Authors: Qiaohui Chu, Haoyu Zhang, Yisen Feng, Meng Liu, Weili Guan, Yaowei Wang, Liqiang Nie,
- Abstract要約: Ego4D Long-Term Action Precipationタスクのために開発された新しい3段階フレームワークを提案する。
基礎モデルの最近の進歩に触発された本手法は,特徴抽出,行動認識,長期的行動予測の3段階からなる。
我々のフレームワークはCVPR 2025においてこの課題において第一位を達成し、長期的な行動予測における新たな最先端技術を確立した。
- 参考スコア(独自算出の注目度): 77.414837862995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we present a novel three-stage framework developed for the Ego4D Long-Term Action Anticipation (LTA) task. Inspired by recent advances in foundation models, our method consists of three stages: feature extraction, action recognition, and long-term action anticipation. First, visual features are extracted using a high-performance visual encoder. The features are then fed into a Transformer to predict verbs and nouns, with a verb-noun co-occurrence matrix incorporated to enhance recognition accuracy. Finally, the predicted verb-noun pairs are formatted as textual prompts and input into a fine-tuned large language model (LLM) to anticipate future action sequences. Our framework achieves first place in this challenge at CVPR 2025, establishing a new state-of-the-art in long-term action prediction. Our code will be released at https://github.com/CorrineQiu/Ego4D-LTA-Challenge-2025.
- Abstract(参考訳): 本稿では,Ego4D Long-Term Action Precipation (LTA)タスクのための新しい3段階フレームワークを提案する。
基礎モデルの最近の進歩に触発された本手法は,特徴抽出,行動認識,長期的行動予測の3段階からなる。
まず、高性能なビジュアルエンコーダを用いて視覚特徴を抽出する。
それらの特徴を変換器に入力して動詞と名詞を予測し、音声認識精度を高めるために動詞と名詞の共起行列を組み込む。
最後に、予測された動詞と名詞のペアをテキストプロンプトとしてフォーマットし、細調整された大言語モデル(LLM)に入力することで、将来のアクションシーケンスを予測する。
我々のフレームワークはCVPR 2025においてこの課題において第一位を達成し、長期的な行動予測における新たな最先端技術を確立した。
私たちのコードはhttps://github.com/CorrineQiu/Ego4D-LTA-Challenge-2025でリリースされます。
関連論文リスト
- VEDIT: Latent Prediction Architecture For Procedural Video Representation Learning [59.68917139718813]
そこで本研究では,市販の冷凍型ビジュアルエンコーダを用いて,予測および手続き計画において,最先端(SoTA)の性能を達成可能であることを示す。
観察されたステップから凍結したクリップレベルの埋め込みを条件付けて、目に見えないステップの動作を予測することで、予測のための堅牢な表現を学習することができる。
論文 参考訳(メタデータ) (2024-10-04T14:52:09Z) - Harnessing Temporal Causality for Advanced Temporal Action Detection [53.654457142657236]
本稿では,因果的注意と因果的マンバを組み合わせたCausalTADを提案する。
Ego4D Challenge 2024では,EPIC-Kitchens Challenge 2024では行動認識,行動検出,音声によるインタラクション検出トラックで1位,Ego4D Challenge 2024ではMoment Queriesトラックで1位にランクインした。
論文 参考訳(メタデータ) (2024-07-25T06:03:02Z) - AntGPT: Can Large Language Models Help Long-term Action Anticipation from Videos? [28.912026171231528]
長期的行動予測(LTA)タスクは、動詞と名詞のシーケンスの形式でビデオ観察から俳優の将来の行動を予測することを目的としている。
本稿では,2つの視点からLTAタスクを定式化することを提案する。次の動作を時間的ダイナミクスをモデル化して自己回帰的に予測するボトムアップアプローチと,俳優の目標を推測し,目標を達成するために必要な手順を計画するトップダウンアプローチである。
本稿では,2段階のフレームワークAntGPTを提案する。このフレームワークは,観測ビデオですでに実行されている動作を最初に認識し,条件付き生成により将来の動作を予測する。
論文 参考訳(メタデータ) (2023-07-31T02:14:19Z) - Technical Report for Ego4D Long Term Action Anticipation Challenge 2023 [0.0]
我々は,2023年のEgo4D長期行動予測チャレンジの技術的詳細を説明する。
このタスクの目的は、入力ビデオから任意のタイミングで発生する未来のアクションのシーケンスを予測することである。
提案手法は, ベースライン性能を向上し, 公開リーダボード上の第2位ソリューションとして記録した。
論文 参考訳(メタデータ) (2023-07-04T04:12:49Z) - Palm: Predicting Actions through Language Models @ Ego4D Long-Term
Action Anticipation Challenge 2023 [100.32802766127776]
Palmは、視覚言語と大規模言語モデルを利用した長期的な行動予測タスクのソリューションである。
入力ビデオから抽出したフレーム記述とアクションラベルに基づいて、将来のアクションを予測する。
論文 参考訳(メタデータ) (2023-06-28T20:33:52Z) - Egocentric Action Recognition by Video Attention and Temporal Context [83.57475598382146]
我々は,Samsung AI Centre Cambridge を CVPR 2020 EPIC-Kitchens Action Recognition Challenge に提出する。
この課題では、入力トリミングされたビデオクリップが与えられた1つの動詞と名詞のクラスラベルを同時に予測する問題として、行動認識が提案される。
我々のソリューションは、オブジェクト固有の推論や余分なトレーニングデータを用いることなく、課題メトリクスの強力なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-03T18:00:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。