論文の概要: A Simple Transformer-Based Model for Ego4D Natural Language Queries
Challenge
- arxiv url: http://arxiv.org/abs/2211.08704v1
- Date: Wed, 16 Nov 2022 06:33:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 15:31:02.084893
- Title: A Simple Transformer-Based Model for Ego4D Natural Language Queries
Challenge
- Title(参考訳): ego4d自然言語クエリチャレンジのための簡易トランスフォーマーモデル
- Authors: Sicheng Mo, Fangzhou Mu, Yin Li
- Abstract要約: 本報告では,Ego4D Natural Language Queries (NLQ) Challengeへの提案について述べる。
我々のソリューションは、時間的動作の局所化に関するこれまでの研究からポイントベースのイベント表現を継承し、ビデオグラウンド化のためのTransformerベースのモデルを開発する。
ベルとホイッスルがなければ、我々の1つのモデルに基づく提出は平均12.64%のR@1を獲得し、公共のリーダーボードで第2位にランクインする。
- 参考スコア(独自算出の注目度): 8.674624972031387
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This report describes Badgers@UW-Madison, our submission to the Ego4D Natural
Language Queries (NLQ) Challenge. Our solution inherits the point-based event
representation from our prior work on temporal action localization, and
develops a Transformer-based model for video grounding. Further, our solution
integrates several strong video features including SlowFast, Omnivore and
EgoVLP. Without bells and whistles, our submission based on a single model
achieves 12.64% Mean R@1 and is ranked 2nd on the public leaderboard.
Meanwhile, our method garners 28.45% (18.03%) R@5 at tIoU=0.3 (0.5), surpassing
the top-ranked solution by up to 5.5 absolute percentage points.
- Abstract(参考訳): 本稿では,Ego4D Natural Language Queries (NLQ) Challengeへの提案であるBadgers@UW-Madisonについて述べる。
提案手法は,時間的動作の局所化に関する先行研究からポイントベースイベント表現を継承し,ビデオグラウンド化のためのトランスフォーマーモデルを開発した。
さらに、当社のソリューションは、SlowFast、Omnivore、EgoVLPなどの強力なビデオ機能を統合しています。
ベルとホイッスルがなければ、単一モデルに基づく提案は12.64%の平均r@1を達成し、公開リーダーボードで2位にランクインします。
一方,本手法はtiou=0.3 (0.5) で28.45% (18.03%) r@5 となり,最大5.5 %の絶対パーセンテージでトップランクの解を上回った。
関連論文リスト
- PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning [78.23573511641548]
視覚言語事前学習は、幅広い画像言語アプリケーションで性能を大幅に向上させた。
しかし、ビデオ関連タスクの事前学習プロセスは、非常に大きな計算とデータリソースを必要とする。
本稿では,映像理解のための既存の画像言語事前学習モデルに適用するための,ストレートフォワード,高効率,資源光のアプローチについて検討する。
論文 参考訳(メタデータ) (2024-04-25T19:29:55Z) - GroundNLQ @ Ego4D Natural Language Queries Challenge 2023 [73.12670280220992]
映像を正確にグラウンドするには、効果的なエゴセントリック特徴抽出器と強力なグラウンドモデルが必要である。
我々は,2段階の事前学習戦略を利用して,ビデオナレーションにおけるエゴセントリックな特徴抽出器とグラウンドングモデルを訓練する。
さらに,マルチモーダルなマルチスケールグラウンドモジュールを用いた新しいグラウンドグラウンドモデル GroundNLQ を提案する。
論文 参考訳(メタデータ) (2023-06-27T07:27:52Z) - InternVideo-Ego4D: A Pack of Champion Solutions to Ego4D Challenges [66.62885923201543]
Ego4D Challengeで5トラックにチャンピオンソリューションを提示します。
ビデオファンデーションモデルであるInternVideoを5つのEgo4Dタスクに活用しています。
InternVideo-Ego4Dは、強力な基盤モデルを下流のエゴ中心のビデオ理解タスクに適用するための効果的なパラダイムである。
論文 参考訳(メタデータ) (2022-11-17T13:45:06Z) - Where a Strong Backbone Meets Strong Features -- ActionFormer for Ego4D
Moment Queries Challenge [7.718326034763966]
私たちはActionFormerという、時間的アクションローカライゼーションのための最先端のバックボーンと、SlowFast、Omnivore、Egoの強力なビデオ機能をベースにしています。
私たちのソリューションは、テストセットの平均mAPが21.76%で、公開リーダボードで2位にランクされています。
論文 参考訳(メタデータ) (2022-11-16T17:43:26Z) - Egocentric Video-Language Pretraining @ Ego4D Challenge 2022 [74.04740069230692]
Ego4D課題に対するビデオ言語事前学習ソリューション citekevin2022egovlp を提案する。
上記の3つの設計に基づいて,エゴセントリックなビデオテキスト表現を複数のビデオダウンストリームタスクに転送可能な,事前訓練されたビデオ言語モデルを開発した。
論文 参考訳(メタデータ) (2022-07-04T12:47:16Z) - Egocentric Video-Language Pretraining @ EPIC-KITCHENS-100 Multi-Instance
Retrieval Challenge 2022 [22.299810960572348]
EPIC-KITCHENS-100 Multi-Instance Retrieval (MIR) のためのビデオ言語事前学習ソリューション citekevin2022egovlp を提案する。
ベストシングルモデルは、47.39% mAP と 61.44% nDCG のチャレンジテストセットで高い性能を得る。
論文 参考訳(メタデータ) (2022-07-04T11:32:48Z) - ReLER@ZJU-Alibaba Submission to the Ego4D Natural Language Queries
Challenge 2022 [61.81899056005645]
ビデオクリップとテキストクエリが与えられた場合、この課題のゴールは、クエリに対する回答が得られるビデオクリップの時間的モーメントを見つけることである。
本稿では,言語クエリとビデオクリップの相関関係を明らかにするために,マルチスケールのクロスモーダル変換器とビデオフレームレベルのコントラスト損失を提案する。
実験の結果,本手法の有効性が示された。
論文 参考訳(メタデータ) (2022-07-01T12:48:35Z) - End-to-End Multi-speaker Speech Recognition with Transformer [88.22355110349933]
音声認識モデルにおけるRNNベースのエンコーダデコーダをトランスフォーマーアーキテクチャに置き換える。
また、計算量を削減するために、シーケンス全体ではなくセグメントに制限されるセルフアテンションコンポーネントを変更します。
論文 参考訳(メタデータ) (2020-02-10T16:29:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。