Fugu-MT 論文翻訳(概要): Exploring Iterative Refinement with Diffusion Models for Video Grounding

論文の概要: Exploring Iterative Refinement with Diffusion Models for Video Grounding

arxiv url: http://arxiv.org/abs/2310.17189v2
Date: Fri, 29 Dec 2023 16:06:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-03 01:09:07.174032
Title: Exploring Iterative Refinement with Diffusion Models for Video Grounding
Title（参考訳）: ビデオグラウンド化のための拡散モデルによる反復的リファインメントの探索
Authors: Xiao Liang, Tao Shi, Yaoyuan Liang, Te Tao, Shao-Lun Huang
Abstract要約: ビデオグラウンドイングは、所定の文クエリに対応する未編集ビデオにおいて、ターゲットモーメントをローカライズすることを目的としている。条件生成タスクとしてビデオグラウンドを定式化する拡散モデルを用いた新しいフレームワークであるDiffusionVGを提案する。
参考スコア（独自算出の注目度）: 17.435735275438923
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video grounding aims to localize the target moment in an untrimmed video corresponding to a given sentence query. Existing methods typically select the best prediction from a set of predefined proposals or directly regress the target span in a single-shot manner, resulting in the absence of a systematical prediction refinement process. In this paper, we propose DiffusionVG, a novel framework with diffusion models that formulates video grounding as a conditional generation task, where the target span is generated from Gaussian noise inputs and interatively refined in the reverse diffusion process. During training, DiffusionVG progressively adds noise to the target span with a fixed forward diffusion process and learns to recover the target span in the reverse diffusion process. In inference, DiffusionVG can generate the target span from Gaussian noise inputs by the learned reverse diffusion process conditioned on the video-sentence representations. Without bells and whistles, our DiffusionVG demonstrates superior performance compared to existing well-crafted models on mainstream Charades-STA, ActivityNet Captions and TACoS benchmarks.
Abstract（参考訳）: ビデオグラウンディングは、与えられた文クエリに対応する未トリミングビデオ内のターゲットモーメントをローカライズすることを目的としている。既存の手法は通常、事前に定義された一連の提案から最良の予測を選択したり、標的を単発的に直接回帰させたりすることで、体系的な予測改善プロセスが欠如する。本稿では,DiffusionVGを提案する。DiffusionVGは条件生成タスクとしてビデオグラウンドを定式化し,ガウス雑音入力からターゲットスパンを生成し,逆拡散過程において相互に洗練する拡散モデルである。訓練中、ディフュージョンvgは目標スパンに一定の前方拡散過程で徐々にノイズを加え、逆拡散過程において目標スパンを回復することを学習する。推論において、DiffusionVGは、映像文表現に条件付き学習された逆拡散プロセスによりガウス雑音入力からターゲットスパンを生成することができる。 DiffusionVGは、メインストリームのCharades-STA、ActivityNet Captions、TACoSベンチマークの既存の優れたモデルと比較して、優れたパフォーマンスを示している。

関連論文リスト

Posterior Transition Modeling for Unsupervised Diffusion-Based Speech Enhancement [26.937216751657697]
クリーン音声の表現的生成先として拡散モデルを用いた教師なし音声強調について検討する。既存の手法は、ノイズ摂動確率スコアを近似して雑音を用いた逆拡散過程を導出する。拡散状態の条件逆遷移分布を直接モデル化する2つの代替アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-07-03T07:42:02Z)
DIVE: Inverting Conditional Diffusion Models for Discriminative Tasks [79.50756148780928]
本稿では,事前学習した拡散モデルを用いて識別課題を遂行する問題について検討する。我々は、事前学習されたレイアウト・ツー・イメージ拡散モデルの「反転」により、事前学習した凍結生成拡散モデルの識別能力を分類タスクからより複雑なオブジェクト検出タスクに拡張する。
論文参考訳（メタデータ） (2025-04-24T05:13:27Z)
Arbitrary-steps Image Super-resolution via Diffusion Inversion [68.78628844966019]
本研究では,拡散インバージョンに基づく新しい画像超解像(SR)手法を提案する。本研究では,拡散モデルの中間状態を構築するための部分雑音予測戦略を設計する。トレーニングが完了すると、このノイズ予測器を使用して、拡散軌道に沿ってサンプリングプロセスを部分的に初期化し、望ましい高分解能結果を生成する。
論文参考訳（メタデータ） (2024-12-12T07:24:13Z)
Diffusion-based Unsupervised Audio-visual Speech Enhancement [26.937216751657697]
本稿では,新しい教師なし音声強調(AVSE)手法を提案する。拡散に基づく音声視覚音声生成モデルと非負行列分解(NMF)ノイズモデルを組み合わせる。実験結果から,提案手法は音声のみのアプローチより優れているだけでなく,近年の教師付き AVSE 法よりも優れていたことが確認された。
論文参考訳（メタデータ） (2024-10-04T12:22:54Z)
Improved off-policy training of diffusion samplers [93.66433483772055]
本研究では,非正規化密度やエネルギー関数を持つ分布からサンプルを抽出する拡散モデルの訓練問題について検討する。シミュレーションに基づく変分法や非政治手法など,拡散構造推論手法のベンチマークを行った。我々の結果は、過去の研究の主張に疑問を投げかけながら、既存のアルゴリズムの相対的な利点を浮き彫りにした。
論文参考訳（メタデータ） (2024-02-07T18:51:49Z)
Unsupervised speech enhancement with diffusion-based generative models [0.0]
拡散モデルの生成力を生かし、教師なしの方法で機能する代替手法を提案する。本研究では,学習したクリーン音声と音声信号推論のための雑音モデルを組み合わせることで,音声強調のための後部サンプリング手法を開発した。近年の変分オートエンコーダ (VAE) による教師なし手法と, 最先端の拡散型教師方式と比較して, 有望な結果が得られた。
論文参考訳（メタデータ） (2023-09-19T09:11:31Z)
Single and Few-step Diffusion for Generative Speech Enhancement [18.487296462927034]
拡散モデルは音声強調において有望な結果を示した。本稿では,2段階の学習手法を用いて,これらの制約に対処する。提案手法は定常的な性能を保ち,従って拡散ベースラインよりも大きく向上することを示す。
論文参考訳（メタデータ） (2023-09-18T11:30:58Z)
Diffusion-based 3D Object Detection with Random Boxes [58.43022365393569]
既存のアンカーベースの3D検出方法は、アンカーの実証的な設定に依存しており、アルゴリズムはエレガンスを欠いている。提案するDiff3Detは,検出ボックスを生成対象として考慮し,拡散モデルから3次元オブジェクト検出のための提案生成へ移行する。推論段階では、モデルは予測結果にランダムボックスのセットを徐々に洗練する。
論文参考訳（メタデータ） (2023-09-05T08:49:53Z)
DiffusionVMR: Diffusion Model for Joint Video Moment Retrieval and Highlight Detection [38.12212015133935]
DiffusionVMRという新しいフレームワークは、2つのタスクを統一された条件記述生成プロセスとして再定義するために提案されている。 5つの広く利用されているベンチマークで実施された実験は、提案されたDiffusionVMRの有効性と柔軟性を示している。
論文参考訳（メタデータ） (2023-08-29T08:20:23Z)
DiffTAD: Temporal Action Detection with Proposal Denoising Diffusion [137.8749239614528]
そこで我々は,時間的行動検出(TAD)の新しい定式化を提案し,拡散を抑えるDiffTADを提案する。入力されたランダムな時間的提案を考慮すれば、トリミングされていない長いビデオが与えられたアクションの提案を正確に得ることができる。
論文参考訳（メタデータ） (2023-03-27T00:40:52Z)
DiffusionRet: Generative Text-Video Retrieval with Diffusion Model [56.03464169048182]
既存のテキストビデオ検索ソリューションは、条件付き可能性、すなわちp(candidates|query)の最大化に焦点を当てている。我々は、このタスクを生成的視点から創造的に取り組み、テキストとビデオの相関関係を共同確率p(candidates,query)としてモデル化する。これは拡散に基づくテキストビデオ検索フレームワーク(DiffusionRet)によって実現され、ノイズから徐々に関節分布を生成するプロセスとして検索タスクをモデル化する。
論文参考訳（メタデータ） (2023-03-17T10:07:19Z)
VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文参考訳（メタデータ） (2023-03-15T02:16:39Z)
Speech Enhancement and Dereverberation with Diffusion-based Generative Models [14.734454356396157]
本稿では,微分方程式に基づく拡散過程について概説する。提案手法により,30段階の拡散しか行わず,高品質なクリーン音声推定が可能であることを示す。大規模なクロスデータセット評価では、改良された手法が近年の識別モデルと競合することを示す。
論文参考訳（メタデータ） (2022-08-11T13:55:12Z)
A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文参考訳（メタデータ） (2021-07-25T19:23:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。