Fugu-MT 論文翻訳(概要): Simple Hierarchical Planning with Diffusion

論文の概要: Simple Hierarchical Planning with Diffusion

arxiv url: http://arxiv.org/abs/2401.02644v1
Date: Fri, 5 Jan 2024 05:28:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-08 16:09:06.245741
Title: Simple Hierarchical Planning with Diffusion
Title（参考訳）: 拡散を伴う単純な階層的計画
Authors: Chang Chen, Fei Deng, Kenji Kawaguchi, Caglar Gulcehre, Sungjin Ahn
Abstract要約: 拡散に基づく生成法は、オフラインデータセットによる軌跡のモデリングに有効であることが証明されている。階層型および拡散型プランニングの利点を組み合わせた高速かつ驚くほど効果的な計画手法である階層型ディフューザを導入する。我々のモデルは、より高いレベルで「ジャンピー」な計画戦略を採用しており、より大きな受容場を持つことができるが、計算コストは低い。
参考スコア（独自算出の注目度）: 54.48129192534653
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion-based generative methods have proven effective in modeling trajectories with offline datasets. However, they often face computational challenges and can falter in generalization, especially in capturing temporal abstractions for long-horizon tasks. To overcome this, we introduce the Hierarchical Diffuser, a simple, fast, yet surprisingly effective planning method combining the advantages of hierarchical and diffusion-based planning. Our model adopts a "jumpy" planning strategy at the higher level, which allows it to have a larger receptive field but at a lower computational cost -- a crucial factor for diffusion-based planning methods, as we have empirically verified. Additionally, the jumpy sub-goals guide our low-level planner, facilitating a fine-tuning stage and further improving our approach's effectiveness. We conducted empirical evaluations on standard offline reinforcement learning benchmarks, demonstrating our method's superior performance and efficiency in terms of training and planning speed compared to the non-hierarchical Diffuser as well as other hierarchical planning methods. Moreover, we explore our model's generalization capability, particularly on how our method improves generalization capabilities on compositional out-of-distribution tasks.
Abstract（参考訳）: 拡散に基づく生成法は、オフラインデータセットによる軌跡のモデリングに有効であることが証明されている。しかし、それらはしばしば計算上の課題に直面し、特に長期的タスクの時間的抽象化を捉える際に、一般化を妨げうる。そこで本研究では,階層型計画と拡散型計画を組み合わせた簡易かつ高速かつ驚くほど効果的な計画手法である階層型ディフューザを提案する。我々のモデルは、より高いレベルで「ジャンピー」な計画戦略を採用しており、より大きな受容場を持つことができるが、より低い計算コストで -- 実験的に検証された拡散ベースの計画手法にとって重要な要素である。さらに、jumpy sub-goalsは、低レベルのプランナーをガイドし、微調整ステージを促進し、アプローチの有効性をさらに向上します。標準オフライン強化学習ベンチマークの実証評価を行い,非階層型ディフューザや他の階層型プランニング手法と比較して,トレーニングと計画速度の面で優れた性能と効率を示した。さらに,本手法の一般化能力,特に構成外分布タスクにおける一般化能力の向上について検討した。

関連論文リスト

Extendable Long-Horizon Planning via Hierarchical Multiscale Diffusion [62.91968752955649]
本稿では,学習データよりも長い軌道計画を行うための,拡張可能な長期計画支援エージェントの課題に対処する。より短いものを縫い合わせることで、より長い軌跡を反復的に生成する拡張法を提案する。 HM-ディフューザーは階層構造を用いてこれらの拡張軌道を訓練し、複数の時間スケールにわたるタスクを効率的に処理する。
論文参考訳（メタデータ） (2025-03-25T22:52:46Z)
DHP: Discrete Hierarchical Planning for Hierarchical Reinforcement Learning Agents [2.1438108757511958]
我々の重要な貢献は、従来の距離に基づくアプローチに代わる離散階層的計画法(DHP)である。提案手法の理論的基礎を提供し,その効果を広範な経験的評価を通じて実証する。提案手法は,25室環境における長期視覚計画タスクにおいて,成功率と平均エピソード長において,従来のベンチマークよりも有意に優れていた。
論文参考訳（メタデータ） (2025-02-04T03:05:55Z)
Practical Performative Policy Learning with Strategic Agents [8.361090623217246]
本研究では,政策学習の課題について検討し,エージェントが提案した方針に応えて特徴を調整し,その潜在的な結果を改善する。本稿では,高次元分布マップの代用として,微分可能な分類器を用いた勾配型ポリシー最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-12-02T10:09:44Z)
Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文参考訳（メタデータ） (2024-06-18T22:57:06Z)
DIPPER: Direct Preference Optimization to Accelerate Primitive-Enabled Hierarchical Reinforcement Learning [36.50275602760051]
DIPPER: 原始許容階層型強化学習の高速化のための直接選好最適化について紹介する。直接選好最適化を利用する効率的な階層的アプローチであり、より高度な政策を学ぶために、そして低レベルの政策を学ぶために強化学習を行う。標準的な嗜好に基づくアプローチではなく、直接選好最適化を使用することで、計算効率の向上を享受している。
論文参考訳（メタデータ） (2024-06-16T10:49:41Z)
Guiding Language Model Reasoning with Planning Tokens [122.43639723387516]
大規模言語モデル(LLM)は、最近、複雑な推論タスクを実行する能力に対して、かなりの関心を集めている。より構造的なチェーン・オブ・シークレット・ステップの創出を促す階層的な生成手法を提案する。提案手法では、トレーニング可能なパラメータ(0.001%)の無視可能な増加が必要であり、完全な微調整か、よりパラメータ効率の良いスキームで適用することができる。
論文参考訳（メタデータ） (2023-10-09T13:29:37Z)
Efficient Planning with Latent Diffusion [18.678459478837976]
時間的抽象化と効率的な計画は、オフライン強化学習において大きな課題となる。潜在アクションスペースはよりフレキシブルなパラダイムを提供し、行動ポリシーサポート内でのみ可能なアクションをキャプチャします。本稿では,潜伏行動空間の連続的表現学習と計画のための統合的フレームワークについて述べる。
論文参考訳（メタデータ） (2023-09-30T08:50:49Z)
Consciousness-Inspired Spatio-Temporal Abstractions for Better Generalization in Reinforcement Learning [83.41487567765871]
Skipperはモデルベースの強化学習フレームワークである。これは、与えられたタスクをより小さく、より管理しやすいサブタスクに自動的に一般化する。環境の関連部分には、スパースな意思決定と集中した抽象化を可能にする。
論文参考訳（メタデータ） (2023-09-30T02:25:18Z)
Hierarchical Imitation Learning with Vector Quantized Models [77.67190661002691]
我々は,専門家の軌跡におけるサブゴールの同定に強化学習を用いることを提案する。同定されたサブゴールに対するベクトル量子化生成モデルを構築し,サブゴールレベルの計画を行う。実験では、このアルゴリズムは複雑な長い水平決定問題の解法に優れ、最先端のアルゴリズムよりも優れている。
論文参考訳（メタデータ） (2023-01-30T15:04:39Z)
Planning with Diffusion for Flexible Behavior Synthesis [125.24438991142573]
我々は、できるだけ多くの軌道最適化パイプラインをモデリング問題に折り畳むことがどう見えるか検討する。我々の技術的アプローチの核心は、軌道を反復的にデノベーションすることで計画する拡散確率モデルにある。
論文参考訳（メタデータ） (2022-05-20T07:02:03Z)
FAPE: a Constraint-based Planner for Generative and Hierarchical Temporal Planning [2.771897351607068]
本稿では,ANMLモデリング言語における時間的特徴の多くを効率を損なうことなくサポートする,FAPEと呼ばれる時間的プランナを提案する。 FAPEの表現は、効率的な制御知識を提供する階層的な改善手法とフレキシブルなタイムラインをコヒーレントに統合する。
論文参考訳（メタデータ） (2020-10-25T13:46:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。