論文の概要: ART for Diffusion Sampling: A Reinforcement Learning Approach to Timestep Schedule
- arxiv url: http://arxiv.org/abs/2601.18681v1
- Date: Mon, 26 Jan 2026 16:56:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.952172
- Title: ART for Diffusion Sampling: A Reinforcement Learning Approach to Timestep Schedule
- Title(参考訳): 拡散サンプリングのためのART:時間スケジュールの強化学習アプローチ
- Authors: Yilie Huang, Wenpin Tang, Xunyu Zhou,
- Abstract要約: スコアベース拡散モデルに対する時間離散化を考察する。
我々は、ランダム化制御コンパニオンART-RLを導出し、連続時間強化学習問題として時間変化を定式化する。
ART-RLは、公式のEDMパイプラインに基づいて、CIFAR-10のフレシェ・インセプション・ディスタンスを改善し、AFHQv2、FFHQ、ImageNetに再訓練することなく移行した。
- 参考スコア(独自算出の注目度): 8.67719968902777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider time discretization for score-based diffusion models to generate samples from a learned reverse-time dynamic on a finite grid. Uniform and hand-crafted grids can be suboptimal given a budget on the number of time steps. We introduce Adaptive Reparameterized Time (ART) that controls the clock speed of a reparameterized time variable, leading to a time change and uneven timesteps along the sampling trajectory while preserving the terminal time. The objective is to minimize the aggregate error arising from the discretized Euler scheme. We derive a randomized control companion, ART-RL, and formulate time change as a continuous-time reinforcement learning (RL) problem with Gaussian policies. We then prove that solving ART-RL recovers the optimal ART schedule, which in turn enables practical actor--critic updates to learn the latter in a data-driven way. Empirically, based on the official EDM pipeline, ART-RL improves Fréchet Inception Distance on CIFAR-10 over a wide range of budgets and transfers to AFHQv2, FFHQ, and ImageNet without the need of retraining.
- Abstract(参考訳): 有限格子上で学習した逆時間ダイナミクスからサンプルを生成するためのスコアベース拡散モデルの時間離散化について検討する。
均一で手作りのグリッドは、時間ステップの数に予算がかかるため、最適ではない。
本稿では、再パラメータ化時間変数のクロック速度を制御し、終端時間を維持しながらサンプリング軌道に沿った時間変化と不均一な時間ステップをもたらす適応的再パラメータ化時間(ART)を提案する。
目的は、離散化されたオイラースキームから生じる集合誤差を最小化することである。
我々は、ランダム化制御コンパニオンART-RLを導出し、ガウスポリシーを用いた連続時間強化学習(RL)問題として時間変化を定式化する。
そして、ART-RLの解法が最適なARTスケジュールを回復することを証明する。
ART-RLは、公式のEDMパイプラインに基づいて、CIFAR-10のフレシェ・インセプション・ディスタンスを改善し、AFHQv2、FFHQ、ImageNetに再訓練することなく移行した。
関連論文リスト
- Low-Dimensional Adaptation of Rectified Flow: A New Perspective through the Lens of Diffusion and Stochastic Localization [59.04314685837778]
整流流(RF)は、その生成効率と最先端の性能からかなりの人気を得ている。
本稿では,RFがターゲット分布の支持の内在的低次元性に自動的に適応し,サンプリングを高速化する程度について検討する。
時間分割方式を慎重に設計し,十分な正確なドリフト推定を行うことで,RFサンプリング器はオーダーO(k/varepsilon)$の複雑さを享受できることを示す。
論文 参考訳(メタデータ) (2026-01-21T22:09:27Z) - Adaptive Deadline and Batch Layered Synchronized Federated Learning [66.93447103966439]
フェデレートラーニング(FL)は、データプライバシを保持しながら、分散エッジデバイス間で協調的なモデルトレーニングを可能にする。
我々は,レイヤワイドアグリゲーションのために,ラウンド単位の期限とユーザ固有のバッチサイズを共同で最適化する新しいフレームワークADEL-FLを提案する。
論文 参考訳(メタデータ) (2025-05-29T19:59:18Z) - Score as Action: Fine-Tuning Diffusion Generative Models by Continuous-time Reinforcement Learning [15.789898162610529]
人間のフィードバックからの強化学習(RLHF)は、信頼できる生成AIモデルを構築する上で重要なステップとなっている。
本研究は、連続時間RLを用いた微動拡散モデルに対する規律付きアプローチを開発することを目的とする。
論文 参考訳(メタデータ) (2025-02-03T20:50:05Z) - Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。
本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。
本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T11:47:56Z) - When to Sense and Control? A Time-adaptive Approach for Continuous-Time RL [37.58940726230092]
離散時間マルコフ決定過程(MDP)の最適化における強化学習(RL)の特長
この課題に対処するRLフレームワークであるTime-Adaptive Control & Sensing(TaCoS)を形式化する。
我々は、TaCoSで訓練された最先端のRLアルゴリズムが、その離散時間に対する相互作用量を劇的に削減できることを実証した。
論文 参考訳(メタデータ) (2024-06-03T09:57:18Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Dynamic Scheduling for Federated Edge Learning with Streaming Data [56.91063444859008]
我々は,長期的エネルギー制約のある分散エッジデバイスにおいて,トレーニングデータを時間とともにランダムに生成するフェデレーションエッジ学習(FEEL)システムを検討する。
限られた通信リソースとレイテンシ要件のため、各イテレーションでローカルトレーニングプロセスに参加するのはデバイスのサブセットのみである。
論文 参考訳(メタデータ) (2023-05-02T07:41:16Z) - Gated Recurrent Neural Networks with Weighted Time-Delay Feedback [55.596897987498174]
本稿では,重み付き時間遅延フィードバック機構を備えたゲートリカレントユニット(GRU)を導入し,時系列データの長期依存性をモデル化する手法を提案する。
提案したモデルである $tau$-GRU は、繰り返し単位の連続時間定式化の離散版であり、力学は遅延微分方程式(DDE)によって制御される。
論文 参考訳(メタデータ) (2022-12-01T02:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。