論文の概要: Technical Report for Ego4D Long Term Action Anticipation Challenge 2023
- arxiv url: http://arxiv.org/abs/2307.01467v1
- Date: Tue, 4 Jul 2023 04:12:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 18:15:28.789708
- Title: Technical Report for Ego4D Long Term Action Anticipation Challenge 2023
- Title(参考訳): Ego4D長期活動予測チャレンジ2023の実施報告
- Authors: Tatsuya Ishibashi, Kosuke Ono, Noriyuki Kugo, Yuji Sato
- Abstract要約: 我々は,2023年のEgo4D長期行動予測チャレンジの技術的詳細を説明する。
このタスクの目的は、入力ビデオから任意のタイミングで発生する未来のアクションのシーケンスを予測することである。
提案手法は, ベースライン性能を向上し, 公開リーダボード上の第2位ソリューションとして記録した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this report, we describe the technical details of our approach for the
Ego4D Long-Term Action Anticipation Challenge 2023. The aim of this task is to
predict a sequence of future actions that will take place at an arbitrary time
or later, given an input video. To accomplish this task, we introduce three
improvements to the baseline model, which consists of an encoder that generates
clip-level features from the video, an aggregator that integrates multiple
clip-level features, and a decoder that outputs Z future actions. 1) Model
ensemble of SlowFast and SlowFast-CLIP; 2) Label smoothing to relax order
constraints for future actions; 3) Constraining the prediction of the action
class (verb, noun) based on word co-occurrence. Our method outperformed the
baseline performance and recorded as second place solution on the public
leaderboard.
- Abstract(参考訳): 本稿では,Ego4D Long-Term Action Precipation Challenge 2023に対するアプローチの技術的詳細について述べる。
このタスクの目的は、入力されたビデオが与えられたとき、任意の時間以上で起こる、将来のアクションのシーケンスを予測することである。
そこで本研究では,ビデオからクリップレベルの特徴を生成するエンコーダと,複数のクリップレベルの特徴を統合するアグリゲータと,将来的な動作を出力するデコーダの3つの改良点を紹介する。
1) SlowFast と SlowFast-CLIP のモデルアンサンブル
2) 今後の行動の順序制約を緩和するラベルの平滑化
3) 単語共起に基づく動作クラス(verb,noun)の予測を制約する。
提案手法は, ベースライン性能を向上し, 公開リーダボード上の第2位ソリューションとして記録した。
関連論文リスト
- Harnessing Temporal Causality for Advanced Temporal Action Detection [53.654457142657236]
本稿では,因果的注意と因果的マンバを組み合わせたCausalTADを提案する。
Ego4D Challenge 2024では,EPIC-Kitchens Challenge 2024では行動認識,行動検出,音声によるインタラクション検出トラックで1位,Ego4D Challenge 2024ではMoment Queriesトラックで1位にランクインした。
論文 参考訳(メタデータ) (2024-07-25T06:03:02Z) - Palm: Predicting Actions through Language Models @ Ego4D Long-Term
Action Anticipation Challenge 2023 [100.32802766127776]
Palmは、視覚言語と大規模言語モデルを利用した長期的な行動予測タスクのソリューションである。
入力ビデオから抽出したフレーム記述とアクションラベルに基づいて、将来のアクションを予測する。
論文 参考訳(メタデータ) (2023-06-28T20:33:52Z) - STOA-VLP: Spatial-Temporal Modeling of Object and Action for
Video-Language Pre-training [30.16501510589718]
本研究では,空間的・時間的次元にまたがる対象情報と行動情報を協調的にモデル化する事前学習フレームワークを提案する。
我々は,ビデオ言語モデルの事前学習プロセスに,両方の情報をよりうまく組み込むための2つの補助タスクを設計する。
論文 参考訳(メタデータ) (2023-02-20T03:13:45Z) - ReLER@ZJU Submission to the Ego4D Moment Queries Challenge 2022 [42.02602065259257]
我々はECCV 2022のEgo4D Moment Queries ChallengeにReLER@ZJU1を提出する。
目標は、エゴセントリックなビデオで起こりうるアクティビティのすべてのインスタンスを検索し、ローカライズすることだ。
Recall@1,tIoU=0.5スコア37.24、平均mAPスコア17.67、そして3位となった。
論文 参考訳(メタデータ) (2022-11-17T14:28:31Z) - Exploiting Feature Diversity for Make-up Temporal Video Grounding [15.358540603177547]
本報告では,ACM MM 2022における第4回PICチャレンジで導入された第3回MTVGの勝利解について述べる。
MTVGは,テキスト記述に基づくビデオ中のステップの時間的境界のローカライズを目的としている。
論文 参考訳(メタデータ) (2022-08-12T09:03:25Z) - Video + CLIP Baseline for Ego4D Long-term Action Anticipation [50.544635516455116]
Video + CLIPフレームワークは、CLIPとビデオエンコーダのSlowfastネットワークという、大規模にトレーニング済みのペアイメージテキストモデルを使用している。
両エンコーダから得られる特徴は相補的であり,長期動作予測のタスクにおいて,Ego4Dのベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-07-01T17:57:28Z) - Context-aware Proposal Network for Temporal Action Detection [47.72048484299649]
本報告では,CVPR-2022 AcitivityNet Challengeにおける時間的行動検出タスクの初当選ソリューションについて述べる。
このタスクは、アクションインスタンスの時間的境界を、長い未トリミングビデオの特定のクラスにローカライズすることを目的としている。
生成した提案にはリッチな文脈情報が含まれており、検出信頼度予測の恩恵を受ける可能性があると論じる。
論文 参考訳(メタデータ) (2022-06-18T01:43:43Z) - Egocentric Action Recognition by Video Attention and Temporal Context [83.57475598382146]
我々は,Samsung AI Centre Cambridge を CVPR 2020 EPIC-Kitchens Action Recognition Challenge に提出する。
この課題では、入力トリミングされたビデオクリップが与えられた1つの動詞と名詞のクラスラベルを同時に予測する問題として、行動認識が提案される。
我々のソリューションは、オブジェクト固有の推論や余分なトレーニングデータを用いることなく、課題メトリクスの強力なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-03T18:00:32Z) - Compositional Video Synthesis with Action Graphs [112.94651460161992]
アクションのビデオは、空間と時間の豊富な構成構造を含む複雑な信号である。
本稿では、アクショングラフと呼ばれるグラフ構造におけるアクションを表現し、新しいアクショングラフ・トゥ・ビデオ合成タスクを提案する。
このタスクのための生成モデル(AG2Vid)は、動作と外観の特徴を歪め、アクションのスケジューリング機構を組み込むことで、タイムリーかつ協調的なビデオ生成を容易にする。
論文 参考訳(メタデータ) (2020-06-27T09:39:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。