論文の概要: Egocentric Video-Language Pretraining @ EPIC-KITCHENS-100 Multi-Instance
Retrieval Challenge 2022
- arxiv url: http://arxiv.org/abs/2207.01334v1
- Date: Mon, 4 Jul 2022 11:32:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 15:14:18.527062
- Title: Egocentric Video-Language Pretraining @ EPIC-KITCHENS-100 Multi-Instance
Retrieval Challenge 2022
- Title(参考訳): Egocentric Video-Language Pretraining @ EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge 2022
- Authors: Kevin Qinghong Lin, Alex Jinpeng Wang, Rui Yan, Eric Zhongcong Xu,
Rongcheng Tu, Yanru Zhu, Wenzhe Zhao, Weijie Kong, Chengfei Cai, Hongfa Wang,
Wei Liu, Mike Zheng Shou
- Abstract要約: EPIC-KITCHENS-100 Multi-Instance Retrieval (MIR) のためのビデオ言語事前学習ソリューション citekevin2022egovlp を提案する。
ベストシングルモデルは、47.39% mAP と 61.44% nDCG のチャレンジテストセットで高い性能を得る。
- 参考スコア(独自算出の注目度): 22.299810960572348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we propose a video-language pretraining (VLP) based solution
\cite{kevin2022egovlp} for the EPIC-KITCHENS-100 Multi-Instance Retrieval (MIR)
challenge. Especially, we exploit the recently released Ego4D dataset
\cite{grauman2021ego4d} to pioneer Egocentric VLP from pretraining dataset,
pretraining objective, and development set. Based on the above three designs,
we develop a pretrained video-language model that is able to transfer its
egocentric video-text representation to MIR benchmark. Furthermore, we devise
an adaptive multi-instance max-margin loss to effectively fine-tune the model
and equip the dual-softmax technique for reliable inference. Our best single
model obtains strong performance on the challenge test set with 47.39% mAP and
61.44% nDCG. The code is available at https://github.com/showlab/EgoVLP.
- Abstract(参考訳): 本稿では,EPIC-KITCHENS-100 Multi-Instance Retrieval (MIR) チャレンジに対して,ビデオ言語事前学習(VLP)ベースのソリューション \cite{kevin2022egovlp} を提案する。
特に、最近リリースされたEgo4Dデータセット \cite{grauman2021ego4d} を利用して、事前学習データセット、事前学習目標、開発セットからEgocentric VLPを開拓する。
上記の3つの設計に基づいて,その自我中心の映像テキスト表現をMIRベンチマークに転送できる事前学習ビデオ言語モデルを開発した。
さらに,適応型マルチインスタンス最大マージン損失を考案し,モデルを効果的に微調整し,信頼度の高い推論にデュアルソフトマックス技術を適用する。
ベストシングルモデルは、47.39% mAP と 61.44% nDCG のチャレンジテストセットで高い性能を得る。
コードはhttps://github.com/showlab/egovlpで入手できる。
関連論文リスト
- EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the
Backbone [67.13773226242242]
ビデオ言語事前学習は、様々なビジョンや言語タスクに一般化することができる。
ビデオ言語事前学習フレームワークは、個別のビデオエンコーダと言語エンコーダを使用し、微調整時にのみタスク固有のクロスモーダル情報を学ぶ。
新たな世代のエゴセントリックなビデオ言語事前訓練は、ビデオと言語のバックボーンに直接クロスモーダル融合を組み込む。
論文 参考訳(メタデータ) (2023-07-11T17:50:15Z) - GroundNLQ @ Ego4D Natural Language Queries Challenge 2023 [73.12670280220992]
映像を正確にグラウンドするには、効果的なエゴセントリック特徴抽出器と強力なグラウンドモデルが必要である。
我々は,2段階の事前学習戦略を利用して,ビデオナレーションにおけるエゴセントリックな特徴抽出器とグラウンドングモデルを訓練する。
さらに,マルチモーダルなマルチスケールグラウンドモジュールを用いた新しいグラウンドグラウンドモデル GroundNLQ を提案する。
論文 参考訳(メタデータ) (2023-06-27T07:27:52Z) - Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。
知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。
このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文 参考訳(メタデータ) (2023-05-23T07:54:37Z) - A Simple Transformer-Based Model for Ego4D Natural Language Queries
Challenge [8.674624972031387]
本報告では,Ego4D Natural Language Queries (NLQ) Challengeへの提案について述べる。
我々のソリューションは、時間的動作の局所化に関するこれまでの研究からポイントベースのイベント表現を継承し、ビデオグラウンド化のためのTransformerベースのモデルを開発する。
ベルとホイッスルがなければ、我々の1つのモデルに基づく提出は平均12.64%のR@1を獲得し、公共のリーダーボードで第2位にランクインする。
論文 参考訳(メタデータ) (2022-11-16T06:33:37Z) - Egocentric Video-Language Pretraining @ Ego4D Challenge 2022 [74.04740069230692]
Ego4D課題に対するビデオ言語事前学習ソリューション citekevin2022egovlp を提案する。
上記の3つの設計に基づいて,エゴセントリックなビデオテキスト表現を複数のビデオダウンストリームタスクに転送可能な,事前訓練されたビデオ言語モデルを開発した。
論文 参考訳(メタデータ) (2022-07-04T12:47:16Z) - Egocentric Video-Language Pretraining [74.04740069230692]
Video-Language Pretrainingは、転送可能な表現を学習して、幅広いビデオテキストダウンストリームタスクを前進させることを目的としている。
我々は、最近リリースされたEgo4Dデータセットを利用して、3方向のEgoセントリックトレーニングを開拓しました。
3つのデータセットにわたる5つのエゴセントリックなダウンストリームタスクに対して、強いパフォーマンスを示します。
論文 参考訳(メタデータ) (2022-06-03T16:28:58Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。