論文の概要: ReLER@ZJU Submission to the Ego4D Moment Queries Challenge 2022
- arxiv url: http://arxiv.org/abs/2211.09558v2
- Date: Mon, 25 Sep 2023 12:14:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 04:33:08.142900
- Title: ReLER@ZJU Submission to the Ego4D Moment Queries Challenge 2022
- Title(参考訳): Ego4D Moment Queries Challenge 2022へのReLER@ZJUの提出
- Authors: Jiayi Shao and Xiaohan Wang and Yi Yang
- Abstract要約: 我々はECCV 2022のEgo4D Moment Queries ChallengeにReLER@ZJU1を提出する。
目標は、エゴセントリックなビデオで起こりうるアクティビティのすべてのインスタンスを検索し、ローカライズすることだ。
Recall@1,tIoU=0.5スコア37.24、平均mAPスコア17.67、そして3位となった。
- 参考スコア(独自算出の注目度): 42.02602065259257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we present the ReLER@ZJU1 submission to the Ego4D Moment
Queries Challenge in ECCV 2022. In this task, the goal is to retrieve and
localize all instances of possible activities in egocentric videos. Ego4D
dataset is challenging for the temporal action localization task as the
temporal duration of the videos is quite long and each video contains multiple
action instances with fine-grained action classes. To address these problems,
we utilize a multi-scale transformer to classify different action categories
and predict the boundary of each instance. Moreover, in order to better capture
the long-term temporal dependencies in the long videos, we propose a
segment-level recurrence mechanism. Compared with directly feeding all video
features to the transformer encoder, the proposed segment-level recurrence
mechanism alleviates the optimization difficulties and achieves better
performance. The final submission achieved Recall@1,tIoU=0.5 score of 37.24,
average mAP score of 17.67 and took 3-rd place on the leaderboard.
- Abstract(参考訳): 本稿では,ECCV 2022におけるEgo4D Moment Queries ChallengeへのReLER@ZJU1の提出について述べる。
このタスクでは、エゴセントリックビデオで可能なアクティビティのすべてのインスタンスを検索し、ローカライズすることが目標です。
ego4dデータセットは、ビデオの時間的持続時間がかなり長く、各ビデオがきめ細かいアクションクラスを持つ複数のアクションインスタンスを含んでいるため、時間的アクションローカライズタスクに挑戦する。
これらの問題に対処するために,マルチスケールトランスフォーマを使用して異なるアクションカテゴリを分類し,各インスタンスの境界を予測する。
さらに,長いビデオの時間的依存性をよりよく捉えるために,セグメントレベルの再帰機構を提案する。
提案するセグメントレベルの再帰機構は,全ての映像特徴をトランスフォーマエンコーダに直接供給することに比べ,最適化の難しさを軽減し,良好な性能を実現する。
Recall@1,tIoU=0.5スコア37.24、平均mAPスコア17.67、そして3位となった。
関連論文リスト
- Technical Report for ActivityNet Challenge 2022 -- Temporal Action Localization [20.268572246761895]
本稿では,各アクションの時間的境界を特定し,未トリミングビデオにおけるアクションクラスを予測することを提案する。
Faster-TADは、TADのパイプラインを単純化し、素晴らしいパフォーマンスを得る。
論文 参考訳(メタデータ) (2024-10-31T14:16:56Z) - Technical Report for Ego4D Long Term Action Anticipation Challenge 2023 [0.0]
我々は,2023年のEgo4D長期行動予測チャレンジの技術的詳細を説明する。
このタスクの目的は、入力ビデオから任意のタイミングで発生する未来のアクションのシーケンスを予測することである。
提案手法は, ベースライン性能を向上し, 公開リーダボード上の第2位ソリューションとして記録した。
論文 参考訳(メタデータ) (2023-07-04T04:12:49Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Adaptive Perception Transformer for Temporal Action Localization [13.735402329482719]
本稿では適応知覚変換器(AdaPerFormer)と呼ばれる新しいエンドツーエンドモデルを提案する。
1つのブランチは、全ビデオシーケンスをモデル化し、グローバルな関連するコンテキストを集約するグローバルな認識の注意を気にする。
他のブランチは、フレーム内およびフレーム間の情報を集約するローカルな畳み込みシフトに集中する。
論文 参考訳(メタデータ) (2022-08-25T07:42:48Z) - ReLER@ZJU-Alibaba Submission to the Ego4D Natural Language Queries
Challenge 2022 [61.81899056005645]
ビデオクリップとテキストクエリが与えられた場合、この課題のゴールは、クエリに対する回答が得られるビデオクリップの時間的モーメントを見つけることである。
本稿では,言語クエリとビデオクリップの相関関係を明らかにするために,マルチスケールのクロスモーダル変換器とビデオフレームレベルのコントラスト損失を提案する。
実験の結果,本手法の有効性が示された。
論文 参考訳(メタデータ) (2022-07-01T12:48:35Z) - AIM 2020 Challenge on Video Temporal Super-Resolution [118.46127362093135]
Video Temporal Super-Resolution (VTSR) の第2回AIMチャレンジ
本稿では,ビデオ・テンポラル・スーパー・リゾリューション(VTSR)における第2回AIM課題について報告する。
論文 参考訳(メタデータ) (2020-09-28T00:10:29Z) - Complementary Boundary Generator with Scale-Invariant Relation Modeling
for Temporal Action Localization: Submission to ActivityNet Challenge 2020 [66.4527310659592]
本報告では,ActivityNet Challenge 2020 Task 1への提出時に使用したソリューションの概要を紹介する。
時間的行動ローカライゼーションタスクを2段階(すなわち提案生成と分類)に分離し,提案の多様性を高める。
提案手法は,課題テストセット上での平均mAPを用いて,時間的動作の局所化タスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-20T04:35:40Z) - Temporal Fusion Network for Temporal Action Localization:Submission to
ActivityNet Challenge 2020 (Task E) [45.3218136336925]
本稿では,Activitynet Challenge 2020で開催されているHACSコンペティションで使用した時間的行動ローカライズ手法について分析する。
課題は、未トリミングビデオ中のアクションの開始時刻と終了時刻を特定し、アクションカテゴリを予測することである。
提案手法は,複数のモデルの結果を融合することにより,検証セットで40.55%,mAPで40.53%を獲得し,この課題においてランク1を達成する。
論文 参考訳(メタデータ) (2020-06-13T00:33:00Z) - Hierarchical Attention Network for Action Segmentation [45.19890687786009]
イベントの時間的セグメンテーションは、ビデオにおける人間の行動の自動認識のための重要なタスクであり、前駆体である。
我々は、時間とともに行動間の関係をよりよく学習できる、エンドツーエンドの教師あり学習手法を提案する。
我々は,MERLショッピング,50サラダ,ジョージア技術エゴセントリックデータセットなど,公開ベンチマークデータセットの課題を評価する。
論文 参考訳(メタデータ) (2020-05-07T02:39:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。