論文の概要: Generation-Guided Multi-Level Unified Network for Video Grounding
- arxiv url: http://arxiv.org/abs/2303.07748v1
- Date: Tue, 14 Mar 2023 09:48:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 15:39:37.164834
- Title: Generation-Guided Multi-Level Unified Network for Video Grounding
- Title(参考訳): ビデオグラウンドのための世代誘導多層統一ネットワーク
- Authors: Xing Cheng, Xiangyu Wu, Dong Shen, Hezheng Lin, Fan Yang
- Abstract要約: ビデオグラウンディングは、未トリミングされたビデオの中で、クエリ記述に最適なタイムスタンプを見つけることを目的としている。
モーメントレベルのアプローチは、グローバルな視点で各過渡モーメントが境界となる確率を直接予測する。
クリップレベルのものは、異なる時間窓のモーメントをプロポーザルに集約し、最も類似したモーメントを推論し、きめ細かいグラウンドリングにおいてその優位性をもたらす。
- 参考スコア(独自算出の注目度): 18.402093379973085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video grounding aims to locate the timestamps best matching the query
description within an untrimmed video. Prevalent methods can be divided into
moment-level and clip-level frameworks. Moment-level approaches directly
predict the probability of each transient moment to be the boundary in a global
perspective, and they usually perform better in coarse grounding. On the other
hand, clip-level ones aggregate the moments in different time windows into
proposals and then deduce the most similar one, leading to its advantage in
fine-grained grounding. In this paper, we propose a multi-level unified
framework to enhance performance by leveraging the merits of both moment-level
and clip-level methods. Moreover, a novel generation-guided paradigm in both
levels is adopted. It introduces a multi-modal generator to produce the
implicit boundary feature and clip feature, later regarded as queries to
calculate the boundary scores by a discriminator. The generation-guided
solution enhances video grounding from a two-unique-modals' match task to a
cross-modal attention task, which steps out of the previous framework and
obtains notable gains. The proposed Generation-guided Multi-level Unified
network (GMU) surpasses previous methods and reaches State-Of-The-Art on
various benchmarks with disparate features, e.g., Charades-STA, ActivityNet
captions.
- Abstract(参考訳): ビデオグラウンディングは、クエリ記述に最も適したタイムスタンプを未トリミングビデオ内で見つけることを目的としている。
一般的なメソッドはモーメントレベルとクリップレベルに分けることができる。
モーメントレベルアプローチは、各過渡モーメントが大域的な視点で境界となる確率を直接予測し、粗い接地においてよりよく機能する。
一方、クリップレベルのものは、異なる時間ウィンドウのモーメントをプロポーザルに集約し、最も類似したモーメントを推論し、きめ細かいグラウンドディングにおいてその優位性をもたらす。
本稿では,モーメントレベルとクリップレベルの両方の手法の利点を生かして,パフォーマンスを向上させるマルチレベル統一フレームワークを提案する。
さらに、両レベルの新しい世代誘導パラダイムが採用されている。
これはマルチモーダルジェネレータを導入し、暗黙の境界特徴とクリップ特徴を生成し、後に判別器によって境界スコアを計算するクエリとみなされる。
生成誘導ソリューションは、2つの共通モダルのマッチングタスクから、以前のフレームワークからステップアウトして顕著なゲインを得るクロスモーダルアテンションタスクへのビデオグラウンドを向上する。
提案する世代誘導型多レベル統一ネットワーク (gmu) は,従来の手法を上回って,さまざまな特徴を備えたベンチマーク,例えばcharades-sta, activitynet キャプションに到達した。
関連論文リスト
- Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding [70.31050639330603]
ビデオ段落の接頭辞は、意味的関係と時間的順序を持つ複数の文を、トリミングされていないビデオからローカライズすることを目的としている。
既存のVPGアプローチは、かなりの数の時間ラベルに大きく依存している。
我々は、時間的アノテーションの必要性を排除するために、Wakly-Supervised Video paragraph Grounding (WSVPG)を導入し、探索する。
論文 参考訳(メタデータ) (2024-03-18T04:30:31Z) - No-frills Temporal Video Grounding: Multi-Scale Neighboring Attention
and Zoom-in Boundary Detection [52.03562682785128]
時間的ビデオグラウンドティングは、未編集のビデオから言語クエリの時間間隔を取得することを目的としている。
テレビGにおける重要な課題は、低SNR(Semantic Noise Ratio)による低SNRの性能低下である。
本稿では,2つのコアモジュールからなる非フリーズTVGモデルを提案する。
論文 参考訳(メタデータ) (2023-07-20T04:12:10Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。
与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文 参考訳(メタデータ) (2022-08-31T14:16:56Z) - Video Is Graph: Structured Graph Module for Video Action Recognition [34.918667614077805]
ビデオシーケンスをグラフに変換して,時間的フレーム間の直接的な長期的依存関係を求める。
特に、SGMは各ノードの隣人を複数の時間領域に分割し、グローバルな構造情報を抽出する。
報告された性能と分析により、SGMは計算複雑性を小さくして優れた精度を達成できることを示した。
論文 参考訳(メタデータ) (2021-10-12T11:27:29Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - Boundary Proposal Network for Two-Stage Natural Language Video
Localization [23.817486773852142]
境界提案ネットワーク(BPNet)は、上記の問題を除去する普遍的な2段階フレームワークである。
最初の段階では、BPNetはアンカーフリーモデルを使用して、その境界を持つ品質候補ビデオセグメントのグループを生成します。
第2段階では、候補と言語クエリの間の多言語相互作用を共同でモデル化するビジュアル言語融合層が提案される。
論文 参考訳(メタデータ) (2021-03-15T03:06:18Z) - Frame-wise Cross-modal Matching for Video Moment Retrieval [32.68921139236391]
ビデオモーメント検索は、与えられた言語クエリのためにビデオ中の瞬間を検索するターゲットである。
本課題は,1)未編集ビデオにおける関連モーメントのローカライズの必要性,2)テキストクエリとビデオコンテンツ間のセマンティックなギャップを埋めることである。
本稿では,対話モデルに基づいて時間境界を予測できる注意的相互関連マッチングモデルを提案する。
論文 参考訳(メタデータ) (2020-09-22T10:25:41Z) - Look Closer to Ground Better: Weakly-Supervised Temporal Grounding of
Sentence in Video [53.69956349097428]
未トリミングビデオと問合せ文が与えられた場合、我々のゴールは、問合せ文に意味的に対応するビデオ内の時間セグメントをローカライズすることである。
本稿では,この問題を粗大な方法で解くための2段階モデルを提案する。
論文 参考訳(メタデータ) (2020-01-25T13:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。