論文の概要: GroundNLQ @ Ego4D Natural Language Queries Challenge 2023
- arxiv url: http://arxiv.org/abs/2306.15255v1
- Date: Tue, 27 Jun 2023 07:27:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 14:19:20.592572
- Title: GroundNLQ @ Ego4D Natural Language Queries Challenge 2023
- Title(参考訳): GroundNLQ @ Ego4D Natural Language Queries Challenge 2023
- Authors: Zhijian Hou, Lei Ji, Difei Gao, Wanjun Zhong, Kun Yan, Chao Li,
Wing-Kwong Chan, Chong-Wah Ngo, Nan Duan, Mike Zheng Shou
- Abstract要約: 映像を正確にグラウンドするには、効果的なエゴセントリック特徴抽出器と強力なグラウンドモデルが必要である。
我々は,2段階の事前学習戦略を利用して,ビデオナレーションにおけるエゴセントリックな特徴抽出器とグラウンドングモデルを訓練する。
さらに,マルチモーダルなマルチスケールグラウンドモジュールを用いた新しいグラウンドグラウンドモデル GroundNLQ を提案する。
- 参考スコア(独自算出の注目度): 73.12670280220992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we present our champion solution for Ego4D Natural Language
Queries (NLQ) Challenge in CVPR 2023. Essentially, to accurately ground in a
video, an effective egocentric feature extractor and a powerful grounding model
are required. Motivated by this, we leverage a two-stage pre-training strategy
to train egocentric feature extractors and the grounding model on video
narrations, and further fine-tune the model on annotated data. In addition, we
introduce a novel grounding model GroundNLQ, which employs a multi-modal
multi-scale grounding module for effective video and text fusion and various
temporal intervals, especially for long videos. On the blind test set,
GroundNLQ achieves 25.67 and 18.18 for R1@IoU=0.3 and R1@IoU=0.5, respectively,
and surpasses all other teams by a noticeable margin. Our code will be released
at\url{https://github.com/houzhijian/GroundNLQ}.
- Abstract(参考訳): 本稿では,CVPR 2023におけるEgo4D Natural Language Queries (NLQ) Challengeのチャンピオンソリューションを提案する。
基本的には、ビデオに正確に接地するためには、効果的なエゴセントリック特徴抽出器と強力な接地モデルが必要である。
そこで我々は,2段階の事前学習戦略を利用して,ビデオナレーションにおいて,エゴセントリックな特徴抽出器と接地モデルを訓練し,さらに注釈付きデータに基づいてモデルを微調整する。
また,ビデオとテキストの融合を効果的に行うマルチモーダル・マルチスケール・グラウンドリング・モジュールと,特にロングビデオの時間間隔を考慮した新しいグラウンドディング・モデルであるGundNLQを導入する。
ブラインドテストセットでは、GroundNLQはR1@IoU=0.3とR1@IoU=0.5の25.67と18.18をそれぞれ達成し、他のすべてのチームを上回っている。
私たちのコードは at\url{https://github.com/houzhijian/groundnlq} でリリースされる。
関連論文リスト
- EgoVideo: Exploring Egocentric Foundation Model and Downstream Adaptation [54.32133648259802]
CVPR 2024のEgoVis Challengesには、Ego4Dチャレンジの5トラックとEPIC-Kitchensチャレンジの3トラックが含まれています。
ビデオ言語2towerモデルを構築し,厳密に整理された自我中心型ビデオデータを活用することにより,EgoVideoという新しい基礎モデルを導入する。
このモデルは、エゴセントリックなビデオの特徴に特化して設計されており、当社のコンペティションへの強力なサポートを提供する。
論文 参考訳(メタデータ) (2024-06-26T05:01:37Z) - ObjectNLQ @ Ego4D Episodic Memory Challenge 2024 [51.57555556405898]
本稿では,CVPR 2024におけるEgo4D Episodic Memory Benchmarkの自然言語クエリトラックとゴールステップトラックについて紹介する。
どちらの課題も、テキストクエリを使って長いビデオシーケンス内のアクションをローカライズする必要がある。
我々は、オブジェクトブランチを組み込んだ新しいアプローチObjectNLQを導入し、ビデオ表現を詳細なオブジェクト情報で拡張する。
論文 参考訳(メタデータ) (2024-06-22T07:57:58Z) - Localizing Moments in Long Video Via Multimodal Guidance [51.72829274071017]
本研究では,非記述可能なウィンドウを識別し,抽出することにより,長いビデオにおける自然言語グラウンドリングの性能を向上させる手法を提案する。
実験の結果,提案手法はMADが4.1%,Ego4Dが4.52%,最先端モデルが4.1%向上することがわかった。
論文 参考訳(メタデータ) (2023-02-26T18:19:24Z) - NaQ: Leveraging Narrations as Queries to Supervise Episodic Memory [92.98552727430483]
Narrations-as-Queries (NaQ)は、標準的なビデオテキストナレーションをビデオクエリのローカライゼーションモデルのためのトレーニングデータに変換するデータ拡張戦略である。
NaQが複数のトップモデルを大幅に改善(精度を2倍に)
また、ゼロショットおよび少数ショットNLQの実行能力や、ロングテールオブジェクトカテゴリに関するクエリのパフォーマンス向上など、このアプローチのユニークな特性も示す。
論文 参考訳(メタデータ) (2023-01-02T16:40:15Z) - A Simple Transformer-Based Model for Ego4D Natural Language Queries
Challenge [8.674624972031387]
本報告では,Ego4D Natural Language Queries (NLQ) Challengeへの提案について述べる。
我々のソリューションは、時間的動作の局所化に関するこれまでの研究からポイントベースのイベント表現を継承し、ビデオグラウンド化のためのTransformerベースのモデルを開発する。
ベルとホイッスルがなければ、我々の1つのモデルに基づく提出は平均12.64%のR@1を獲得し、公共のリーダーボードで第2位にランクインする。
論文 参考訳(メタデータ) (2022-11-16T06:33:37Z) - Egocentric Video-Language Pretraining @ Ego4D Challenge 2022 [74.04740069230692]
Ego4D課題に対するビデオ言語事前学習ソリューション citekevin2022egovlp を提案する。
上記の3つの設計に基づいて,エゴセントリックなビデオテキスト表現を複数のビデオダウンストリームタスクに転送可能な,事前訓練されたビデオ言語モデルを開発した。
論文 参考訳(メタデータ) (2022-07-04T12:47:16Z) - Egocentric Video-Language Pretraining @ EPIC-KITCHENS-100 Multi-Instance
Retrieval Challenge 2022 [22.299810960572348]
EPIC-KITCHENS-100 Multi-Instance Retrieval (MIR) のためのビデオ言語事前学習ソリューション citekevin2022egovlp を提案する。
ベストシングルモデルは、47.39% mAP と 61.44% nDCG のチャレンジテストセットで高い性能を得る。
論文 参考訳(メタデータ) (2022-07-04T11:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。