論文の概要: ConsistencyDet: A Few-step Denoising Framework for Object Detection Using the Consistency Model
- arxiv url: http://arxiv.org/abs/2404.07773v4
- Date: Tue, 01 Apr 2025 12:46:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-02 14:12:38.258065
- Title: ConsistencyDet: A Few-step Denoising Framework for Object Detection Using the Consistency Model
- Title(参考訳): ConsistencyDet: Consistency Modelを用いたオブジェクト検出のための数ステップのDenoisingフレームワーク
- Authors: Lifan Jiang, Zhihui Wang, Changmiao Wang, Ming Li, Jiaxu Leng, Xindong Wu,
- Abstract要約: 本稿では,物体検出を認知拡散過程として記述するための新しいフレームワークを提案する。
textbfConsistencyDetと呼ばれるこのフレームワークは、Consistency Modelとして知られる革新的な概念を活用している。
- 参考スコア(独自算出の注目度): 28.193325656555803
- License:
- Abstract: Object detection, a quintessential task in the realm of perceptual computing, can be tackled using a generative methodology. In the present study, we introduce a novel framework designed to articulate object detection as a denoising diffusion process, which operates on the perturbed bounding boxes of annotated entities. This framework, termed \textbf{ConsistencyDet}, leverages an innovative denoising concept known as the Consistency Model. The hallmark of this model is its self-consistency feature, which empowers the model to map distorted information from any time step back to its pristine state, thereby realizing a \textbf{``few-step denoising''} mechanism. Such an attribute markedly elevates the operational efficiency of the model, setting it apart from the conventional Diffusion Model. Throughout the training phase, ConsistencyDet initiates the diffusion sequence with noise-infused boxes derived from the ground-truth annotations and conditions the model to perform the denoising task. Subsequently, in the inference stage, the model employs a denoising sampling strategy that commences with bounding boxes randomly sampled from a normal distribution. Through iterative refinement, the model transforms an assortment of arbitrarily generated boxes into definitive detections. Comprehensive evaluations employing standard benchmarks, such as MS-COCO and LVIS, corroborate that ConsistencyDet surpasses other leading-edge detectors in performance metrics. Our code is available at https://anonymous.4open.science/r/ConsistencyDet-37D5.
- Abstract(参考訳): オブジェクト検出は、知覚コンピューティングの領域における重要なタスクであり、生成的手法を用いて取り組むことができる。
本研究では,アノテートされたエンティティの摂動境界ボックス上で動作する,物体検出を認知拡散プロセスとして記述する新しいフレームワークを提案する。
このフレームワークは、textbf{ConsistencyDet}と呼ばれ、Consistency Modelとして知られる革新的な概念を活用している。
このモデルの目玉は自己整合性(self-consistency)機能であり、任意の時間ステップからその原始状態に歪んだ情報をマッピングし、従って \textbf{`few-step denoising'} 機構を実現する。
このような属性はモデルの運用効率を著しく高め、従来の拡散モデルとは分離する。
トレーニングフェーズ全体を通じて、ConsistencyDetは、接地トルースアノテーションから派生したノイズ注入ボックスによる拡散シーケンスを開始し、デノナイジングタスクを実行するようにモデルに条件付ける。
その後、推論段階では、正規分布からランダムにサンプリングされた境界ボックスで開始する復調サンプリング戦略を採用する。
反復的精錬により、モデルは任意に生成された箱の配置を決定的な検出に変換する。
MS-COCOやLVISといった標準ベンチマークを用いた総合的な評価は、ConsistencyDetがパフォーマンス指標で他の最先端検出器を上回っていることを裏付けている。
私たちのコードはhttps://anonymous.4open.science/r/ConsistencyDet-37D5で利用可能です。
関連論文リスト
- Dimension-free Score Matching and Time Bootstrapping for Diffusion Models [11.743167854433306]
拡散モデルは、様々な雑音レベルにおける対象分布のスコア関数を推定してサンプルを生成する。
本研究では,これらのスコア関数を学習するために,次元自由なサンプル境界の複雑性を初めて(ほぼ)確立する。
我々の分析の重要な側面は、ノイズレベル間でのスコアを共同で推定する単一関数近似器を使用することである。
論文 参考訳(メタデータ) (2025-02-14T18:32:22Z) - Beyond Fixed Horizons: A Theoretical Framework for Adaptive Denoising Diffusions [1.9116784879310031]
本稿では, ノイズ発生過程とノイズ発生過程の両方において, 時間均質な構造を実現する新しい生成拡散モデルを提案する。
モデルの主な特徴は、ターゲットデータへの適応性であり、事前訓練された無条件生成モデルを使用して、様々な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-01-31T18:23:27Z) - DeTrack: In-model Latent Denoising Learning for Visual Object Tracking [24.993508502786998]
本稿では,視覚的物体追跡問題を認知学習プロセスとして定式化するための新しいパラダイムを提案する。
拡散モデルにインスパイアされた学習は、目に見えないデータに対するモデルの堅牢性を高める。
境界ボックスにノイズを導入し、トレーニング用ノイズボックスを生成し、テストデータに対するモデルロバスト性を向上する。
論文 参考訳(メタデータ) (2025-01-05T07:28:50Z) - Stable Consistency Tuning: Understanding and Improving Consistency Models [40.2712218203989]
拡散モデルは、より優れた生成品質を達成するが、復調の反復的な性質により、生成速度が遅くなる。
新しいジェネレーティブファミリーである一貫性モデルは、非常に高速なサンプリングで競争性能を達成する。
本稿では,拡散モデルの分解過程をマルコフ決定過程(MDP)としてモデル化し,時間差分学習(TD)による値推定としてフレーミング一貫性モデルのトレーニングを提案する。
論文 参考訳(メタデータ) (2024-10-24T17:55:52Z) - One More Step: A Versatile Plug-and-Play Module for Rectifying Diffusion
Schedule Flaws and Enhancing Low-Frequency Controls [77.42510898755037]
One More Step (OMS) は、推論中に単純だが効果的なステップを付加したコンパクトネットワークである。
OMSは画像の忠実度を高め、トレーニングと推論の二分法を調和させ、元のモデルパラメータを保存する。
トレーニングが完了すると、同じ潜在ドメインを持つ様々な事前訓練された拡散モデルが同じOMSモジュールを共有することができる。
論文 参考訳(メタデータ) (2023-11-27T12:02:42Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Gradpaint: Gradient-Guided Inpainting with Diffusion Models [71.47496445507862]
Denoising Diffusion Probabilistic Models (DDPM) は近年,条件付きおよび非条件付き画像生成において顕著な成果を上げている。
我々はGradPaintを紹介し、グローバルな一貫性のあるイメージに向けて世代を操る。
我々は、様々なデータセットで訓練された拡散モデルによく適応し、現在最先端の教師付きおよび教師なしの手法を改善している。
論文 参考訳(メタデータ) (2023-09-18T09:36:24Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - ChiroDiff: Modelling chirographic data with Diffusion Models [132.5223191478268]
チャーログラフィーデータのための強力なモデルクラスである「拡散確率モデル(Denoising Diffusion Probabilistic Models)」やDDPMを導入している。
我々のモデルは「ChiroDiff」と呼ばれ、非自己回帰的であり、全体論的概念を捉えることを学び、したがって高い時間的サンプリングレートに回復する。
論文 参考訳(メタデータ) (2023-04-07T15:17:48Z) - Anomaly Detection of Time Series with Smoothness-Inducing Sequential
Variational Auto-Encoder [59.69303945834122]
Smoothness-Inducing Sequential Variational Auto-Encoder (SISVAE) モデルを提案する。
我々のモデルは、フレキシブルニューラルネットワークを用いて各タイムスタンプの平均と分散をパラメータ化する。
合成データセットと公開実世界のベンチマークの両方において,本モデルの有効性を示す。
論文 参考訳(メタデータ) (2021-02-02T06:15:15Z) - NAT: Noise-Aware Training for Robust Neural Sequence Labeling [30.91638109413785]
入力におけるシーケンスラベリングのロバスト性を改善する2つのノイズ・アウェア・トレーニング(NAT)目標を提案する。
我々のデータ拡張法は、クリーンなサンプルとノイズの多いサンプルの混合を用いてニューラルモデルを訓練する一方、安定性のトレーニングアルゴリズムは、ノイズ不変の潜在表現を作成することを奨励する。
英語とドイツ語の名前付きエンティティ認識ベンチマークの実験では、NATは人気のあるシークエンスラベリングモデルの堅牢性を一貫して改善した。
論文 参考訳(メタデータ) (2020-05-14T17:30:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。