論文の概要: Horizon Imagination: Efficient On-Policy Training in Diffusion World Models
- arxiv url: http://arxiv.org/abs/2602.08032v1
- Date: Sun, 08 Feb 2026 16:07:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.94234
- Title: Horizon Imagination: Efficient On-Policy Training in Diffusion World Models
- Title(参考訳): 水平イマジネーション:拡散世界モデルにおける効率的なオン・ポリティ・トレーニング
- Authors: Lior Cohen, Ofir Nabati, Kaixin Wang, Navdeep Kumar, Shie Mannor,
- Abstract要約: 我々は、強化学習のための拡散に基づく世界モデルについて研究する。
現在の方法は推論時に重み付けモデルを必要とするか、非常に逐次的な想像力に依存している。
我々は,複数の将来の観測を並列に認知する個別政策のための,政治上の想像プロセスであるHorizon Imagination(HI)を提案する。
- 参考スコア(独自算出の注目度): 53.30870288484743
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study diffusion-based world models for reinforcement learning, which offer high generative fidelity but face critical efficiency challenges in control. Current methods either require heavyweight models at inference or rely on highly sequential imagination, both of which impose prohibitive computational costs. We propose Horizon Imagination (HI), an on-policy imagination process for discrete stochastic policies that denoises multiple future observations in parallel. HI incorporates a stabilization mechanism and a novel sampling schedule that decouples the denoising budget from the effective horizon over which denoising is applied while also supporting sub-frame budgets. Experiments on Atari 100K and Craftium show that our approach maintains control performance with a sub-frame budget of half the denoising steps and achieves superior generation quality under varied schedules. Code is available at https://github.com/leor-c/horizon-imagination.
- Abstract(参考訳): 本研究では,高生成性を提供するが,制御において重要な効率上の課題に直面している強化学習のための拡散型世界モデルについて検討する。
現在の手法では、推論時に重み付けモデルを必要とするか、高いシーケンシャルな想像力に依存している。
我々は,複数の将来の観測を並列に認知する離散確率的政策のための,政治上の想像過程であるHorizon Imagination(HI)を提案する。
HIは、安定化機構と、サブフレーム予算をサポートしながら、デノナイジングを効果的に適用する地平線からデノナイジング予算を分離する新しいサンプリングスケジュールを組み込んでいる。
Atari 100K と Craftium の実験から,本手法は半段階の分節予算で制御性能を維持し,各種スケジュール下での優れた生成品質を実現することを示す。
コードはhttps://github.com/leor-c/horizon-imaginationで入手できる。
関連論文リスト
- Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。
Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。
高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文 参考訳(メタデータ) (2025-10-27T03:52:45Z) - BADiff: Bandwidth Adaptive Diffusion Model [55.10134744772338]
従来の拡散モデルは、下流の伝送制限によらず、一定数のデノナイジングステップを実行することで、高忠実度画像を生成する。
実際のクラウド・ツー・デバイス・シナリオでは、帯域幅の制限はしばしば重い圧縮を必要とし、微妙なテクスチャや無駄な計算が失われる。
使用可能な帯域幅から導かれる目標品質レベルに拡散モデルを条件付けする,共同エンドツーエンドのトレーニング戦略を導入する。
論文 参考訳(メタデータ) (2025-10-24T11:50:03Z) - Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [67.94300151774085]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Avoiding mode collapse in diffusion models fine-tuned with reinforcement learning [0.0]
強化学習(RL)による微調整基礎モデルは、下流の目標に整合する上で有望であることが証明されている。
拡散モデル (DM) の階層的性質を生かし, 各エポックでRL法で動的に訓練する。
HRFで訓練したモデルは、下流タスクにおける多様性の保存性を向上し、微調整の堅牢性を高め、平均報酬を損なうことなく達成できることが示される。
論文 参考訳(メタデータ) (2024-10-10T19:06:23Z) - Receding Horizon Inverse Reinforcement Learning [16.63162838890697]
逆強化学習(IRL)は、専門家によるデモンストレーションの目的と好みを説明するコスト関数を推論しようとする。
本稿では,ブラックボックス動的モデルを用いた高次元・雑音・連続システムのための新しいIRLアルゴリズムであるRereeding horizon inverse reinforcement Learning (RHIRL)を提案する。
論文 参考訳(メタデータ) (2022-06-09T13:03:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。