論文の概要: Explore and Match: End-to-End Video Grounding with Transformer
- arxiv url: http://arxiv.org/abs/2201.10168v1
- Date: Tue, 25 Jan 2022 08:26:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-27 03:11:42.893253
- Title: Explore and Match: End-to-End Video Grounding with Transformer
- Title(参考訳): トランスフォーマーによるエンドツーエンドビデオグラウンドの探索とマッチング
- Authors: Sangmin Woo, Jinyoung Park, Inyong Koo, Sumin Lee, Minki Jeong,
Changick Kim
- Abstract要約: 我々は、設定された予測問題としてビデオグラウンドを定式化し、エンドツーエンドのトレーニング可能なビデオグラウンド変換器(VidGTR)を設計する。
VidGTRは、集合予測にリッチなコンテキスト化と並列デコーディングのアーキテクチャ的長所を利用することができる。
本稿では,ビデオグラウンド方式の2つのストリームをシームレスに統一することを目的とした,ビデオグラウンドのための探索とマッチングという新しいパラダイムを提案する。
- 参考スコア(独自算出の注目度): 25.515031058989482
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a new paradigm named explore-and-match for video grounding, which
aims to seamlessly unify two streams of video grounding methods: proposal-based
and proposal-free. To achieve this goal, we formulate video grounding as a set
prediction problem and design an end-to-end trainable Video Grounding
Transformer (VidGTR) that can utilize the architectural strengths of rich
contextualization and parallel decoding for set prediction. The overall
training is balanced by two key losses that play different roles, namely span
localization loss and set guidance loss. These two losses force each proposal
to regress the target timespan and identify the target query. Throughout the
training, VidGTR first explores the search space to diversify the initial
proposals and then matches the proposals to the corresponding targets to fit
them in a fine-grained manner. The explore-and-match scheme successfully
combines the strengths of two complementary methods, without encoding prior
knowledge into the pipeline. As a result, VidGTR sets new state-of-the-art
results on two video grounding benchmarks with double the inference speed.
- Abstract(参考訳): 提案方式と提案なし方式の2つの手法をシームレスに統合することを目的とした,ビデオグラウンドのためのexplore-and-matchという新しいパラダイムを提案する。
この目的を達成するために,ビデオグラウンドディングをセット予測問題として定式化し,リッチなコンテキスト化と並列デコーディングのアーキテクチャ的長所を生かした,エンドツーエンドのトレーニング可能なビデオグラウンド変換器(VidGTR)を設計する。
トレーニング全体のバランスは、異なる役割を担う2つの重要な損失、すなわち、スパンローカライゼーション損失とセットガイダンス損失によって決定される。
この2つの損失により、それぞれの提案はターゲットのタイムスパンを後退させ、ターゲットクエリを特定せざるを得なくなる。
トレーニングを通じて、VidGTRはまず、最初の提案を多様化するために検索スペースを探索し、その後、提案を対応するターゲットにマッチさせ、それらをきめ細かい方法で適合させる。
explore-and-matchスキームは、パイプラインに事前の知識をエンコードすることなく、2つの補完メソッドの強みをうまく組み合わせます。
その結果、vidgtrは2つのビデオグラウンディングベンチマークに新たな最先端結果を設定し、推論速度を2倍にした。
関連論文リスト
- Not All Pairs are Equal: Hierarchical Learning for Average-Precision-Oriented Video Retrieval [80.09819072780193]
平均精度(AP)は、関連ビデオのランキングを上位リストで評価する。
最近のビデオ検索手法は、全てのサンプル対を等しく扱うペアワイズ損失を利用する。
論文 参考訳(メタデータ) (2024-07-22T11:52:04Z) - Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding [70.31050639330603]
ビデオ段落の接頭辞は、意味的関係と時間的順序を持つ複数の文を、トリミングされていないビデオからローカライズすることを目的としている。
既存のVPGアプローチは、かなりの数の時間ラベルに大きく依存している。
我々は、時間的アノテーションの必要性を排除するために、Wakly-Supervised Video paragraph Grounding (WSVPG)を導入し、探索する。
論文 参考訳(メタデータ) (2024-03-18T04:30:31Z) - Generative Video Diffusion for Unseen Cross-Domain Video Moment
Retrieval [58.17315970207874]
ビデオモーメント検索(VMR)では、複雑な視覚言語関係を捉えるために、微細なモーメントテキスト関連を正確にモデル化する必要がある。
既存の手法は、クロスドメインアプリケーションのためのソースとターゲットのドメインビデオの両方のジョイントトレーニングを利用する。
対象の文によって制御されるソースビデオのきめ細かい編集のための生成的ビデオ拡散について検討する。
論文 参考訳(メタデータ) (2024-01-24T09:45:40Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - End-to-End Dense Video Grounding via Parallel Regression [30.984657885692553]
ビデオグラウンドイングは、言語クエリが与えられた未トリミングビデオに対応するビデオモーメントをローカライズすることを目的としている。
本稿では,Transformer-alike Architecture (PRVG) を再構成することで,エンドツーエンドの並列デコーディングパラダイムを提案する。
設計の単純さのおかげで、私たちのPRVGフレームワークは異なるテストスキームに適用できます。
論文 参考訳(メタデータ) (2021-09-23T10:03:32Z) - On Pursuit of Designing Multi-modal Transformer for Video Grounding [35.25323276744999]
ビデオグラウンディングは、未編集のビデオから文クエリに対応する時間セグメントをローカライズすることを目的としている。
本稿では,bfGTRと呼ばれる新しいエンド・ツー・エンドのマルチモーダルトランスフォーマーモデルを提案する。具体的には,GTRはビデオ符号化と言語符号化のための2つのエンコーダと,グラウンドディング予測のためのクロスモーダルデコーダを備える。
3つの典型的なGTR変種は、すべてのデータセットとメトリクスで記録破りのパフォーマンスを達成し、推論速度は数倍高速である。
論文 参考訳(メタデータ) (2021-09-13T16:01:19Z) - Interventional Video Grounding with Dual Contrastive Learning [16.0734337895897]
ビデオグラウンドティングは、与えられたテキストクエリのために、未編集のビデオから瞬間をローカライズすることを目的としている。
本稿では、因果推論の観点から新しいパラダイムを提案し、モデルとデータの背後にある因果関係を明らかにする。
また、テキストとビデオの整合性を改善するために、二重のコントラスト学習アプローチを導入しています。
論文 参考訳(メタデータ) (2021-06-21T12:11:28Z) - Regularized Two-Branch Proposal Networks for Weakly-Supervised Moment
Retrieval in Videos [108.55320735031721]
ビデオモーメント検索は、所定の文に従って、ビデオ中のターゲットモーメントをローカライズすることを目的としている。
既存の弱監督手法の多くは、MILベースのフレームワークをサンプル間対決の開発に適用している。
本稿では,サンプル間およびサンプル内対立を同時に検討するための,正規化された2分岐提案ネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-19T04:42:46Z) - Look Closer to Ground Better: Weakly-Supervised Temporal Grounding of
Sentence in Video [53.69956349097428]
未トリミングビデオと問合せ文が与えられた場合、我々のゴールは、問合せ文に意味的に対応するビデオ内の時間セグメントをローカライズすることである。
本稿では,この問題を粗大な方法で解くための2段階モデルを提案する。
論文 参考訳(メタデータ) (2020-01-25T13:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。