論文の概要: ReLER@ZJU-Alibaba Submission to the Ego4D Natural Language Queries
Challenge 2022
- arxiv url: http://arxiv.org/abs/2207.00383v1
- Date: Fri, 1 Jul 2022 12:48:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-04 14:11:05.080718
- Title: ReLER@ZJU-Alibaba Submission to the Ego4D Natural Language Queries
Challenge 2022
- Title(参考訳): ReLER@ZJU-AlibabaがEgo4D自然言語クエリチャレンジ2022に参加
- Authors: Naiyuan Liu, Xiaohan Wang, Xiaobo Li, Yi Yang, Yueting Zhuang
- Abstract要約: ビデオクリップとテキストクエリが与えられた場合、この課題のゴールは、クエリに対する回答が得られるビデオクリップの時間的モーメントを見つけることである。
本稿では,言語クエリとビデオクリップの相関関係を明らかにするために,マルチスケールのクロスモーダル変換器とビデオフレームレベルのコントラスト損失を提案する。
実験の結果,本手法の有効性が示された。
- 参考スコア(独自算出の注目度): 61.81899056005645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we present the ReLER@ZJU-Alibaba submission to the Ego4D
Natural Language Queries (NLQ) Challenge in CVPR 2022. Given a video clip and a
text query, the goal of this challenge is to locate a temporal moment of the
video clip where the answer to the query can be obtained. To tackle this task,
we propose a multi-scale cross-modal transformer and a video frame-level
contrastive loss to fully uncover the correlation between language queries and
video clips. Besides, we propose two data augmentation strategies to increase
the diversity of training samples. The experimental results demonstrate the
effectiveness of our method. The final submission ranked first on the
leaderboard.
- Abstract(参考訳): 本稿では,CVPR 2022におけるEgo4D Natural Language Queries (NLQ) ChallengeへのReLER@ZJU-Alibabaの提出について述べる。
ビデオクリップとテキストクエリが与えられた場合、この課題の目的は、クエリに対する回答が得られるビデオクリップの一時的な瞬間を見つけることである。
この課題に対処するために,言語クエリとビデオクリップの相関関係を明らかにするために,マルチスケールのクロスモーダル変換器とビデオフレームレベルのコントラスト損失を提案する。
さらに,トレーニングサンプルの多様性を高めるための2つのデータ拡張戦略を提案する。
実験の結果,本手法の有効性が示された。
最終候補はトップボードにランクインした。
関連論文リスト
- First Place Solution to the Multiple-choice Video QA Track of The Second Perception Test Challenge [4.075139470537149]
The Second Perception Test Challenge(第2回知覚テストチャレンジ)のマルチチョイスビデオ質問回答トラックへの第1位ソリューションを提示する。
このコンペティションは複雑なビデオ理解の課題を提起し、ビデオコンテンツに関する質問を正確に理解し答えるモデルを必要とした。
論文 参考訳(メタデータ) (2024-09-20T14:31:13Z) - GroundNLQ @ Ego4D Natural Language Queries Challenge 2023 [73.12670280220992]
映像を正確にグラウンドするには、効果的なエゴセントリック特徴抽出器と強力なグラウンドモデルが必要である。
我々は,2段階の事前学習戦略を利用して,ビデオナレーションにおけるエゴセントリックな特徴抽出器とグラウンドングモデルを訓練する。
さらに,マルチモーダルなマルチスケールグラウンドモジュールを用いた新しいグラウンドグラウンドモデル GroundNLQ を提案する。
論文 参考訳(メタデータ) (2023-06-27T07:27:52Z) - Action Sensitivity Learning for the Ego4D Episodic Memory Challenge 2023 [41.10032280192564]
本稿では、CVPR 2023のEgo4D Episodic Memory Benchmarkの2つのトラックにReLERを提出する。
この手法は提案したASL(Action Sensitivity Learning framework)を継承し,フレームの分散情報をよりよく取得する。
論文 参考訳(メタデータ) (2023-06-15T14:50:17Z) - NaQ: Leveraging Narrations as Queries to Supervise Episodic Memory [92.98552727430483]
Narrations-as-Queries (NaQ)は、標準的なビデオテキストナレーションをビデオクエリのローカライゼーションモデルのためのトレーニングデータに変換するデータ拡張戦略である。
NaQが複数のトップモデルを大幅に改善(精度を2倍に)
また、ゼロショットおよび少数ショットNLQの実行能力や、ロングテールオブジェクトカテゴリに関するクエリのパフォーマンス向上など、このアプローチのユニークな特性も示す。
論文 参考訳(メタデータ) (2023-01-02T16:40:15Z) - The Runner-up Solution for YouTube-VIS Long Video Challenge 2022 [72.13080661144761]
この課題に対して,提案したオンラインビデオインスタンス分割方式IDOLを採用した。
擬似ラベルを使用して、コントラスト学習をさらに支援し、時間的に一貫したインスタンスの埋め込みを得る。
提案手法は、YouTube-VIS 2022長ビデオデータセット上で40.2 APを取得し、この課題において第2位にランクされた。
論文 参考訳(メタデータ) (2022-11-18T01:40:59Z) - ReLER@ZJU Submission to the Ego4D Moment Queries Challenge 2022 [42.02602065259257]
我々はECCV 2022のEgo4D Moment Queries ChallengeにReLER@ZJU1を提出する。
目標は、エゴセントリックなビデオで起こりうるアクティビティのすべてのインスタンスを検索し、ローカライズすることだ。
Recall@1,tIoU=0.5スコア37.24、平均mAPスコア17.67、そして3位となった。
論文 参考訳(メタデータ) (2022-11-17T14:28:31Z) - Team PKU-WICT-MIPL PIC Makeup Temporal Video Grounding Challenge 2022
Technical Report [42.49264486550348]
本研究では,その微粒な句と文全体に関連する時間的局所化関係を利用するフレーズ関係マイニングフレームワークを提案する。
さらに,異なるステップ文クエリの局所化結果を重なり合わないように制約することを提案する。
最終候補は第2位で、第1位と0.55%の差しかなかった。
論文 参考訳(メタデータ) (2022-07-06T13:50:34Z) - AIM 2020 Challenge on Video Temporal Super-Resolution [118.46127362093135]
Video Temporal Super-Resolution (VTSR) の第2回AIMチャレンジ
本稿では,ビデオ・テンポラル・スーパー・リゾリューション(VTSR)における第2回AIM課題について報告する。
論文 参考訳(メタデータ) (2020-09-28T00:10:29Z) - AIM 2019 Challenge on Video Temporal Super-Resolution: Methods and
Results [129.15554076593762]
本稿では,ビデオ時空間超解像(フレーム)におけるAIMの最初の課題についてレビューする。
低フレームレート(15fps)のビデオシーケンスから、チャレンジ参加者はより高いフレームレート(60fps)のビデオシーケンスを提出するよう求められる。
ハンドヘルドカメラで撮影した多様なビデオから得られたREDS VTSRデータセットをトレーニングおよび評価目的で使用した。
論文 参考訳(メタデータ) (2020-05-04T01:51:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。