論文の概要: DiffusionVMR: Diffusion Model for Video Moment Retrieval
- arxiv url: http://arxiv.org/abs/2308.15109v1
- Date: Tue, 29 Aug 2023 08:20:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 15:07:59.963766
- Title: DiffusionVMR: Diffusion Model for Video Moment Retrieval
- Title(参考訳): DiffusionVMR:ビデオモーメント検索のための拡散モデル
- Authors: Henghao Zhao, Kevin Qinghong Lin, Rui Yan and Zechao Li
- Abstract要約: ビデオモーメント検索は、言語クエリに基づいて、未編集のビデオからターゲットモーメントを検索することを目的とした、基本的な視覚言語タスクである。
既存の手法は、検索支援セットとして、手動または前もって生成ネットワークを介して多数の提案を生成する。
物体検出における拡散モデルの成功に触発された本研究は,映像モーメント検索をデノナイジング生成プロセスとして再構成することを目的としている。
- 参考スコア(独自算出の注目度): 38.12212015133935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video moment retrieval is a fundamental visual-language task that aims to
retrieve target moments from an untrimmed video based on a language query.
Existing methods typically generate numerous proposals manually or via
generative networks in advance as the support set for retrieval, which is not
only inflexible but also time-consuming. Inspired by the success of diffusion
models on object detection, this work aims at reformulating video moment
retrieval as a denoising generation process to get rid of the inflexible and
time-consuming proposal generation. To this end, we propose a novel
proposal-free framework, namely DiffusionVMR, which directly samples random
spans from noise as candidates and introduces denoising learning to ground
target moments. During training, Gaussian noise is added to the real moments,
and the model is trained to learn how to reverse this process. In inference, a
set of time spans is progressively refined from the initial noise to the final
output. Notably, the training and inference of DiffusionVMR are decoupled, and
an arbitrary number of random spans can be used in inference without being
consistent with the training phase. Extensive experiments conducted on three
widely-used benchmarks (i.e., QVHighlight, Charades-STA, and TACoS) demonstrate
the effectiveness of the proposed DiffusionVMR by comparing it with
state-of-the-art methods.
- Abstract(参考訳): ビデオモーメント検索は、言語クエリに基づいて、未編集のビデオからターゲットモーメントを検索することを目的とした、基本的な視覚言語タスクである。
既存のメソッドは通常、検索のサポートセットとして、手動または前もって生成ネットワークを介して多数の提案を生成します。
オブジェクト検出における拡散モデルの成功に触発されて,ビデオモーメント検索を,柔軟性と時間を要する提案生成を解消するためのデノイジング生成プロセスとして再構成することを目的とした。
そこで本研究では,雑音からランダムスパンを直接候補として抽出し,対象モーメントにデノイジング学習を導入するための新しい提案フリーフレームワークであるdiffencevmrを提案する。
トレーニング中、ガウスノイズが実際のモーメントに追加され、モデルはこのプロセスを逆転する方法を学ぶように訓練される。
推論において、時間スパンのセットは初期ノイズから最終出力へと徐々に洗練される。
特に、DiffusionVMRのトレーニングと推論は分離されており、任意の数のランダムスパンをトレーニングフェーズと整合性を持たずに推論に使用することができる。
広く使われている3つのベンチマーク(QVHighlight、Charades-STA、TACoS)で実施された大規模な実験は、DiffusionVMRの有効性を最先端の手法と比較することによって示している。
関連論文リスト
- Diffusion-TS: Interpretable Diffusion for General Time Series Generation [6.639630994040322]
Diffusion-TSは、高品質な時系列サンプルを生成する新しい拡散ベースのフレームワークである。
各拡散ステップのノイズの代わりにサンプルを直接再構成するようにモデルを訓練し、フーリエに基づく損失項を組み合わせた。
その結果,Diffusion-TSは時系列の様々な現実的解析において最先端の結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-03-04T05:39:23Z) - Exploring Iterative Refinement with Diffusion Models for Video Grounding [17.435735275438923]
ビデオグラウンドイングは、所定の文クエリに対応する未編集ビデオにおいて、ターゲットモーメントをローカライズすることを目的としている。
条件生成タスクとしてビデオグラウンドを定式化する拡散モデルを用いた新しいフレームワークであるDiffusionVGを提案する。
論文 参考訳(メタデータ) (2023-10-26T07:04:44Z) - Single and Few-step Diffusion for Generative Speech Enhancement [18.487296462927034]
拡散モデルは音声強調において有望な結果を示した。
本稿では,2段階の学習手法を用いて,これらの制約に対処する。
提案手法は定常的な性能を保ち,従って拡散ベースラインよりも大きく向上することを示す。
論文 参考訳(メタデータ) (2023-09-18T11:30:58Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - DiffTAD: Temporal Action Detection with Proposal Denoising Diffusion [137.8749239614528]
そこで我々は,時間的行動検出(TAD)の新しい定式化を提案し,拡散を抑えるDiffTADを提案する。
入力されたランダムな時間的提案を考慮すれば、トリミングされていない長いビデオが与えられたアクションの提案を正確に得ることができる。
論文 参考訳(メタデータ) (2023-03-27T00:40:52Z) - DiffusionRet: Generative Text-Video Retrieval with Diffusion Model [56.03464169048182]
既存のテキストビデオ検索ソリューションは、条件付き可能性、すなわちp(candidates|query)の最大化に焦点を当てている。
我々は、このタスクを生成的視点から創造的に取り組み、テキストとビデオの相関関係を共同確率p(candidates,query)としてモデル化する。
これは拡散に基づくテキストビデオ検索フレームワーク(DiffusionRet)によって実現され、ノイズから徐々に関節分布を生成するプロセスとして検索タスクをモデル化する。
論文 参考訳(メタデータ) (2023-03-17T10:07:19Z) - VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:16:39Z) - Regularized Two-Branch Proposal Networks for Weakly-Supervised Moment
Retrieval in Videos [108.55320735031721]
ビデオモーメント検索は、所定の文に従って、ビデオ中のターゲットモーメントをローカライズすることを目的としている。
既存の弱監督手法の多くは、MILベースのフレームワークをサンプル間対決の開発に適用している。
本稿では,サンプル間およびサンプル内対立を同時に検討するための,正規化された2分岐提案ネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-19T04:42:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。