論文の概要: Distance Marching for Generative Modeling
- arxiv url: http://arxiv.org/abs/2602.02928v1
- Date: Tue, 03 Feb 2026 00:00:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.146276
- Title: Distance Marching for Generative Modeling
- Title(参考訳): 生成モデリングのための距離マーキング
- Authors: Zimo Wang, Ishit Mehta, Haolin Lu, Chung-En Sun, Ge Yan, Tsui-Wei Weng, Tzu-Mao Li,
- Abstract要約: 時間非条件生成モデルは時間非依存の分解ベクトル場を学習する。
2つの原理的推論手法を用いた新しい時間的無条件手法である距離マーチングを提案する。
クラス条件のImageNet生成では、時間入力を削除したにもかかわらず、Distance Marchingはフローマッチングを上回っている。
- 参考スコア(独自算出の注目度): 31.173570992074904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Time-unconditional generative models learn time-independent denoising vector fields. But without time conditioning, the same noisy input may correspond to multiple noise levels and different denoising directions, which interferes with the supervision signal. Inspired by distance field modeling, we propose Distance Marching, a new time-unconditional approach with two principled inference methods. Crucially, we design losses that focus on closer targets. This yields denoising directions better directed toward the data manifold. Across architectures, Distance Marching consistently improves FID by 13.5% on CIFAR-10 and ImageNet over recent time-unconditional baselines. For class-conditional ImageNet generation, despite removing time input, Distance Marching surpasses flow matching using our losses and inference methods. It achieves lower FID than flow matching's final performance using 60% of the sampling steps and 13.6% lower FID on average across backbone sizes. Moreover, our distance prediction is also helpful for early stopping during sampling and for OOD detection. We hope distance field modeling can serve as a principled lens for generative modeling.
- Abstract(参考訳): 時間非条件生成モデルは時間非依存の分解ベクトル場を学習する。
しかし、時間条件がなければ、同じノイズ入力は複数のノイズレベルと異なる騒音方向に対応し、監督信号に干渉する可能性がある。
距離場モデリングに着想を得て、2つの原理的推論手法を用いた新しい時間非条件手法である距離マーチングを提案する。
重要なのは、より近い目標に焦点を絞った損失を設計することです。
これにより、デノイング方向がデータ多様体に向けられるようになる。
アーキテクチャ全体では、Distance Marchingは最近の非条件ベースラインよりもCIFAR-10とImageNetでFIDを13.5%改善している。
クラス条件の画像ネット生成では、時間入力を削除したにもかかわらず、Distance Marchingは、我々の損失と推論手法を用いてフローマッチングを上回ります。
サンプリングステップの60%を使用してフローマッチングの最終性能よりも低いFIDを実現し、バックボーンサイズの平均で13.6%低いFIDを実現している。
また,サンプリング中の早期停止やOOD検出にも有効である。
距離場モデリングが生成モデリングの原則となることを願っている。
関連論文リスト
- EDIT: Early Diffusion Inference Termination for dLLMs Based on Dynamics of Training Gradients [6.736735746633275]
拡散に基づく大規模言語モデル (dLLMs) は反復的妄想を通じてトークン生成を洗練させるが、全てのステップが完了する前に答えは安定することが多い。
本稿では,トレーニング時推論に対する十分な推論安定性が検出された場合に,適応的にデノイングを停止する推論時基準であるEDITを提案する。
論文 参考訳(メタデータ) (2025-11-29T23:47:47Z) - Cross-Attention with Confidence Weighting for Multi-Channel Audio Alignment [5.380078543698624]
マルチチャンネルオーディオアライメントは、生体音響モニタリング、空間オーディオシステム、音響ローカライゼーションにおいて重要な要件である。
マルチチャンネル音声同期を改善するために,クロスアテンション機構と信頼度重み付けスコアリングを組み合わせた手法を提案する。
提案手法は,BioDCASE 2025 Task 1 チャレンジにおいて,ディープラーニングベースラインの 0.58 に対して,テストデータセットの平均 0.30 MSE で1位となった。
論文 参考訳(メタデータ) (2025-09-21T05:14:06Z) - Time Is a Feature: Exploiting Temporal Dynamics in Diffusion Language Models [57.474294329887236]
拡散大言語モデル (dLLMs) は反復的 denoising を通じてテキストを生成する。
現在のデコード戦略は、最終的な出力に有利なリッチな中間予測を捨てている。
時間的整合性を利用する2つの相補的手法を導入する。
論文 参考訳(メタデータ) (2025-08-12T17:59:57Z) - Robust and Noise-resilient Long-Term Prediction of Spatiotemporal Data Using Variational Mode Graph Neural Networks with 3D Attention [11.356542363919058]
本稿では,時空間変動モードグラフネットワーク(VMGCN)を用いた長期予測の堅牢性向上に焦点をあてる。
このタスクのディープラーニングネットワークは過去のデータ入力に依存しているが、リアルタイムデータはセンサノイズによって破壊される可能性がある。
我々は、このノイズを独立かつ同一に分散したガウスノイズとしてモデル化し、LargeSTトラフィックボリュームデータセットに組み込む。
論文 参考訳(メタデータ) (2025-04-09T07:49:45Z) - Robust Representation Consistency Model via Contrastive Denoising [83.47584074390842]
ランダムな平滑化は、敵の摂動に対する堅牢性を証明する理論的保証を提供する。
拡散モデルは、ノイズ摂動サンプルを浄化するためにランダムな平滑化に成功している。
我々は,画素空間における拡散軌跡に沿った生成的モデリングタスクを,潜在空間における識別的タスクとして再構成する。
論文 参考訳(メタデータ) (2025-01-22T18:52:06Z) - Direct Unsupervised Denoising [60.71146161035649]
教師なしのデノイザは、MMSE推定のような単一の予測を直接生成しない。
本稿では,VAEと並んで決定論的ネットワークを訓練し,中心的な傾向を直接予測するアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-27T13:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。