論文の概要: DiffTAD: Temporal Action Detection with Proposal Denoising Diffusion
- arxiv url: http://arxiv.org/abs/2303.14863v2
- Date: Fri, 14 Jul 2023 12:06:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-17 16:58:29.184202
- Title: DiffTAD: Temporal Action Detection with Proposal Denoising Diffusion
- Title(参考訳): DiffTAD:拡散を考慮した時間的行動検出
- Authors: Sauradip Nag, Xiatian Zhu, Jiankang Deng, Yi-Zhe Song and Tao Xiang
- Abstract要約: そこで我々は,時間的行動検出(TAD)の新しい定式化を提案し,拡散を抑えるDiffTADを提案する。
入力されたランダムな時間的提案を考慮すれば、トリミングされていない長いビデオが与えられたアクションの提案を正確に得ることができる。
- 参考スコア(独自算出の注目度): 137.8749239614528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new formulation of temporal action detection (TAD) with
denoising diffusion, DiffTAD in short. Taking as input random temporal
proposals, it can yield action proposals accurately given an untrimmed long
video. This presents a generative modeling perspective, against previous
discriminative learning manners. This capability is achieved by first diffusing
the ground-truth proposals to random ones (i.e., the forward/noising process)
and then learning to reverse the noising process (i.e., the backward/denoising
process). Concretely, we establish the denoising process in the Transformer
decoder (e.g., DETR) by introducing a temporal location query design with
faster convergence in training. We further propose a cross-step selective
conditioning algorithm for inference acceleration. Extensive evaluations on
ActivityNet and THUMOS show that our DiffTAD achieves top performance compared
to previous art alternatives. The code will be made available at
https://github.com/sauradip/DiffusionTAD.
- Abstract(参考訳): 本稿では,時間的行動検出(TAD)の新しい定式化について提案する。
入力ランダムな時間的提案として、不適切な長いビデオが与えられた場合に、アクションの提案を精度良く得ることができる。
これは、従来の差別的な学習方法に対する生成的モデリングの視点を示す。
この能力は、まずランダムな提案(フォワード/ノイズ化過程)に地道的提案を拡散し、次にノイズ化過程(すなわち後方/デノイング過程)を逆転させることによって達成される。
具体的には,より高速に収束する時間的位置問合せ設計を導入することで,変圧器デコーダ(例: detr)のデノージングプロセスを確立する。
さらに,推定加速度のためのクロスステップ選択条件付けアルゴリズムを提案する。
ActivityNet と THUMOS の広範囲な評価から,DiffTAD が従来の代替技術と比較して最高のパフォーマンスを達成していることがわかる。
コードはhttps://github.com/sauradip/diffusiontadで入手できる。
関連論文リスト
- Diffusion Models With Learned Adaptive Noise [12.530583016267768]
本稿では,拡散過程がデータから学べるかどうかを考察する。
広く信じられている仮定は、ELBOはノイズプロセスに不変であるということである。
画像間で異なる速度でノイズを印加する学習拡散過程であるMULANを提案する。
論文 参考訳(メタデータ) (2023-12-20T18:00:16Z) - Towards More Accurate Diffusion Model Acceleration with A Timestep
Aligner [84.97253871387028]
数千のデノナイジングステップを用いて画像を生成するために定式化された拡散モデルは通常、遅い推論速度に悩まされる。
最小限のコストで特定の区間に対するより正確な積分方向を見つけるのに役立つ時間ステップ整合器を提案する。
実験により,我々のプラグイン設計を効率的に訓練し,様々な最先端加速度法の推論性能を向上できることが示された。
論文 参考訳(メタデータ) (2023-10-14T02:19:07Z) - Speeding Up Speech Synthesis In Diffusion Models By Reducing Data Distribution Recovery Steps Via Content Transfer [3.2634122554914002]
拡散に基づくボコーダはサンプリングに必要な多くのステップのために遅いと批判されている。
本稿では,目標がプロセスの進行時間ステップの異なる出力となる設定を提案する。
提案手法は競争時間帯に高忠実度音声を生成することを示す。
論文 参考訳(メタデータ) (2023-09-18T10:35:27Z) - DiffusionVMR: Diffusion Model for Joint Video Moment Retrieval and
Highlight Detection [38.12212015133935]
DiffusionVMRという新しいフレームワークは、2つのタスクを統一された条件記述生成プロセスとして再定義するために提案されている。
5つの広く利用されているベンチマークで実施された実験は、提案されたDiffusionVMRの有効性と柔軟性を示している。
論文 参考訳(メタデータ) (2023-08-29T08:20:23Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - AdjointDPM: Adjoint Sensitivity Method for Gradient Backpropagation of Diffusion Probabilistic Models [103.41269503488546]
既存のカスタマイズ方法は、事前訓練された拡散確率モデルをユーザが提供する概念に合わせるために、複数の参照例にアクセスする必要がある。
本論文は、DPMカスタマイズの課題として、生成コンテンツ上で定義された差別化可能な指標が唯一利用可能な監督基準である場合に解決することを目的とする。
本稿では,拡散モデルから新しいサンプルを初めて生成するAdjointDPMを提案する。
次に、随伴感度法を用いて、損失の勾配をモデルのパラメータにバックプロパゲートする。
論文 参考訳(メタデータ) (2023-07-20T09:06:21Z) - Boundary-Denoising for Video Activity Localization [57.9973253014712]
本稿では,映像活動のローカライゼーション問題について,認知的視点から検討する。
具体的には,DenoiseLocというエンコーダデコーダモデルを提案する。
実験によると、DenoiseLocはいくつかのビデオアクティビティ理解タスクで%前進している。
論文 参考訳(メタデータ) (2023-04-06T08:48:01Z) - Post-Processing Temporal Action Detection [134.26292288193298]
時間的行動検出(TAD)法は、通常、入力された可変長のビデオを固定長のスニペット表現シーケンスに変換する際に、前処理のステップを踏む。
この前処理ステップは、ビデオを時間的にダウンサンプリングし、推論の解像度を低減し、元の時間分解における検出性能を阻害する。
モデルの再設計や再学習を伴わない新しいモデル非依存のポストプロセッシング手法を提案する。
論文 参考訳(メタデータ) (2022-11-27T19:50:37Z) - Speech Enhancement and Dereverberation with Diffusion-based Generative
Models [14.734454356396157]
本稿では,微分方程式に基づく拡散過程について概説する。
提案手法により,30段階の拡散しか行わず,高品質なクリーン音声推定が可能であることを示す。
大規模なクロスデータセット評価では、改良された手法が近年の識別モデルと競合することを示す。
論文 参考訳(メタデータ) (2022-08-11T13:55:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。