論文の概要: End-to-End Dense Video Grounding via Parallel Regression
- arxiv url: http://arxiv.org/abs/2109.11265v1
- Date: Thu, 23 Sep 2021 10:03:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-24 15:01:15.110960
- Title: End-to-End Dense Video Grounding via Parallel Regression
- Title(参考訳): 並列回帰によるエンド・ツー・エンド高密度ビデオグラウンド
- Authors: Fengyuan Shi, Limin Wang, Weilin Huang
- Abstract要約: ビデオグラウンドイングは、言語クエリが与えられた未トリミングビデオに対応するビデオモーメントをローカライズすることを目的としている。
本稿では,Transformer-alike Architecture (PRVG) を再構成することで,エンドツーエンドの並列デコーディングパラダイムを提案する。
設計の単純さのおかげで、私たちのPRVGフレームワークは異なるテストスキームに適用できます。
- 参考スコア(独自算出の注目度): 41.32423239386528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video grounding aims to localize the corresponding video moment in an
untrimmed video given a language query. Existing methods often address this
task in an indirect way, by casting it as a proposal-and-match or
fusion-and-detection problem. Solving these surrogate problems often requires
sophisticated label assignment during training and hand-crafted removal of
near-duplicate results. Meanwhile, existing works typically focus on sparse
video grounding with a single sentence as input, which could result in
ambiguous localization due to its unclear description. In this paper, we tackle
a new problem of dense video grounding, by simultaneously localizing multiple
moments with a paragraph as input. From a perspective on video grounding as
language conditioned regression, we present an end-to-end parallel decoding
paradigm by re-purposing a Transformer-alike architecture (PRVG). The key
design in our PRVG is to use languages as queries, and directly regress the
moment boundaries based on language-modulated visual representations. Thanks to
its simplicity in design, our PRVG framework can be applied in different
testing schemes (sparse or dense grounding) and allows for efficient inference
without any post-processing technique. In addition, we devise a robust
proposal-level attention loss to guide the training of PRVG, which is invariant
to moment duration and contributes to model convergence. We perform experiments
on two video grounding benchmarks of ActivityNet Captions and TACoS,
demonstrating that our PRVG can significantly outperform previous methods. We
also perform in-depth studies to investigate the effectiveness of parallel
regression paradigm on video grounding.
- Abstract(参考訳): video groundingは、言語クエリが与えられたビデオの中で、対応するビデオモーメントをローカライズすることを目的としている。
既存のメソッドは、プロポーザル・アンド・マッチや融合・アンド・検出問題としてキャストすることで、間接的にこのタスクに対処することが多い。
これらのサロゲート問題の解決には、トレーニング中の高度なラベル割り当てと、ほぼ重複した結果の手作りの削除が必要となることが多い。
一方、既存の作品では、単一の文を入力としてスパースビデオのグラウンド化に重点を置いており、不明瞭な記述のため、不明瞭なローカライゼーションをもたらす可能性がある。
本稿では,複数のモーメントと段落を同時に入力としてローカライズすることにより,高密度ビデオグラウンドングの新たな問題に取り組む。
言語条件付回帰としてのビデオグラウンドングの観点から、トランスフォーマライクアーキテクチャ(prvg)を再提案することにより、エンドツーエンドの並列デコーディングパラダイムを提案する。
私たちのPRVGのキーデザインは、言語をクエリとして使用し、言語に変調された視覚表現に基づいてモーメント境界を直接回帰することです。
設計の単純さにより、我々のPRVGフレームワークは異なるテストスキーム(疎あるいは密接なグラウンド)に適用でき、後処理のテクニックを使わずに効率的な推論が可能になる。
さらに,モデルの収束に寄与するモーメント持続時間に不変なprvgのトレーニングのガイドとして,堅牢な提案レベルの注意損失を考案する。
我々は、ActivityNet CaptionsとTACoSの2つのビデオグラウンドベンチマークで実験を行い、PRVGが従来の手法を大幅に上回ることを示す。
また,ビデオグラウンディングにおける並列回帰パラダイムの有効性を検討するために,詳細な研究を行った。
関連論文リスト
- Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding [70.31050639330603]
ビデオ段落の接頭辞は、意味的関係と時間的順序を持つ複数の文を、トリミングされていないビデオからローカライズすることを目的としている。
既存のVPGアプローチは、かなりの数の時間ラベルに大きく依存している。
我々は、時間的アノテーションの必要性を排除するために、Wakly-Supervised Video paragraph Grounding (WSVPG)を導入し、探索する。
論文 参考訳(メタデータ) (2024-03-18T04:30:31Z) - DemaFormer: Damped Exponential Moving Average Transformer with
Energy-Based Modeling for Temporal Language Grounding [32.45280955448672]
時間的言語グラウンディングは、自然言語クエリに意味的に対応するビデオモーメントをローカライズすることを目指している。
モーメントクエリ分布を明示的に学習するためのエネルギーモデルフレームワークを提案する。
また、指数移動平均と学習可能な減衰係数を利用するトランスフォーマーベースの新しいアーキテクチャであるDemaFormerを提案する。
論文 参考訳(メタデータ) (2023-12-05T07:37:21Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。
与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文 参考訳(メタデータ) (2022-08-31T14:16:56Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - A Simple Yet Effective Method for Video Temporal Grounding with
Cross-Modality Attention [31.218804432716702]
言語誘導ビデオの時間的グラウンド化の課題は、検索文に対応する特定のビデオクリップを、未トリミングビデオでローカライズすることである。
直感的な構造設計が可能な単純な2分岐クロスモダリティアテンション(CMA)モジュールを提案する。
さらに,アノテーションバイアスの影響を緩和し,時間的接地精度を向上させるタスク固有回帰損失関数を導入する。
論文 参考訳(メタデータ) (2020-09-23T16:03:00Z) - Dense Regression Network for Video Grounding [97.57178850020327]
地上の真理の中のフレームと開始(終了)フレームの間の距離を高密度の監督として利用し、映像のグラウンド化精度を向上させる。
具体的には、各フレームからビデオセグメントの開始(終了)フレームまでの距離を抑えるために、新しい高密度回帰ネットワーク(DRN)を設計する。
また,グラウンドリング結果の局所化品質を明示的に考慮するために,単純だが効果的なIoU回帰ヘッドモジュールを提案する。
論文 参考訳(メタデータ) (2020-04-07T17:15:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。