論文の概要: Off-dynamics Conditional Diffusion Planners
- arxiv url: http://arxiv.org/abs/2410.12238v1
- Date: Wed, 16 Oct 2024 04:56:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:40:55.804662
- Title: Off-dynamics Conditional Diffusion Planners
- Title(参考訳): オフダイナミックス条件拡散プランナ
- Authors: Wen Zheng Terence Ng, Jianda Chen, Tianwei Zhang,
- Abstract要約: この研究は、オフラインRLにおけるデータ不足の課題に対処するために、より容易に利用できるオフダイナミックスデータセットの使用を探求する。
本研究では,DPMを用いた大規模オフダイナミックスデータセットと限定ターゲットデータセットの連成分布の学習手法を提案する。
- 参考スコア(独自算出の注目度): 15.321049697197447
- License:
- Abstract: Offline Reinforcement Learning (RL) offers an attractive alternative to interactive data acquisition by leveraging pre-existing datasets. However, its effectiveness hinges on the quantity and quality of the data samples. This work explores the use of more readily available, albeit off-dynamics datasets, to address the challenge of data scarcity in Offline RL. We propose a novel approach using conditional Diffusion Probabilistic Models (DPMs) to learn the joint distribution of the large-scale off-dynamics dataset and the limited target dataset. To enable the model to capture the underlying dynamics structure, we introduce two contexts for the conditional model: (1) a continuous dynamics score allows for partial overlap between trajectories from both datasets, providing the model with richer information; (2) an inverse-dynamics context guides the model to generate trajectories that adhere to the target environment's dynamic constraints. Empirical results demonstrate that our method significantly outperforms several strong baselines. Ablation studies further reveal the critical role of each dynamics context. Additionally, our model demonstrates that by modifying the context, we can interpolate between source and target dynamics, making it more robust to subtle shifts in the environment.
- Abstract(参考訳): オフライン強化学習(RL)は、既存のデータセットを活用することで、インタラクティブなデータ取得の魅力的な代替手段を提供する。
しかし、その有効性はデータサンプルの量と品質に依存している。
この研究は、オフラインRLにおけるデータ不足の課題に対処するために、より容易に利用できるオフダイナミックスデータセットの使用を探求する。
本研究では,DPMを用いた大規模オフダイナミックスデータセットと限定ターゲットデータセットの連成分布の学習手法を提案する。
1) 連続力学スコアは、両方のデータセットからのトラジェクトリ間の部分的な重複を許容し、よりリッチな情報を提供する。(2) 逆力学コンテキストは、ターゲット環境のダイナミックな制約に固執するトラジェクトリを生成するためにモデルをガイドする。
実験結果から,本手法はいくつかの強いベースラインを著しく上回ることがわかった。
アブレーション研究はさらに、各ダイナミクスの文脈における重要な役割を明らかにしている。
さらに、我々のモデルは、コンテキストを変更することで、ソースとターゲットのダイナミクスを補間することができ、環境の微妙な変化に対してより堅牢になることを示す。
関連論文リスト
- Synthetic location trajectory generation using categorical diffusion
models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。
本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文 参考訳(メタデータ) (2024-02-19T15:57:39Z) - Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z) - Joint Distributional Learning via Cramer-Wold Distance [0.7614628596146602]
高次元データセットの共分散学習を容易にするために,クレーマー-ウォルド距離正規化を導入し,クレーマー-ウォルド距離正規化法を提案する。
また、フレキシブルな事前モデリングを可能にする2段階学習手法を導入し、集約後と事前分布のアライメントを改善する。
論文 参考訳(メタデータ) (2023-10-25T05:24:23Z) - Amortized Network Intervention to Steer the Excitatory Point Processes [8.15558505134853]
動的グラフ上に発生する励起点過程(すなわちイベントフロー)は、時間と空間を通じて離散事象がどのように広がるかを把握するためのきめ細かいモデルを提供する。
動的グラフ構造を変更してイベントフローを効果的に操縦する方法は、感染症の拡散を抑制する動機となる興味深い問題である。
我々はAmortized Network Interventionsフレームワークを設計し、履歴やその他のコンテキストから最適なポリシーをプールできるようにする。
論文 参考訳(メタデータ) (2023-10-06T11:17:28Z) - Learning Latent Dynamics via Invariant Decomposition and
(Spatio-)Temporal Transformers [0.6767885381740952]
本研究では,高次元経験データから力学系を学習する手法を提案する。
我々は、システムの複数の異なるインスタンスからデータが利用できる設定に焦点を当てる。
我々は、単純な理論的分析と、合成および実世界のデータセットに関する広範な実験を通して行動を研究する。
論文 参考訳(メタデータ) (2023-06-21T07:52:07Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - Learning Sequential Latent Variable Models from Multimodal Time Series
Data [6.107812768939553]
マルチモーダルデータの確率的潜在状態表現を協調的に学習するための自己教師付き生成モデリングフレームワークを提案する。
提案手法が予測品質と表現品質を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2022-04-21T21:59:24Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Autoregressive Dynamics Models for Offline Policy Evaluation and
Optimization [60.73540999409032]
表現的自己回帰ダイナミクスモデルが次の状態の異なる次元を生成し、以前の次元で順次条件付きで報酬を得ることを示す。
また,リプレイバッファを充実させる手段として,自己回帰的ダイナミクスモデルがオフラインポリシー最適化に有用であることを示す。
論文 参考訳(メタデータ) (2021-04-28T16:48:44Z) - Explore the Context: Optimal Data Collection for Context-Conditional Dynamics Models [7.766117084613689]
我々は、様々な性質を持つ力学系のパラメタライズドファミリーの力学モデルを学ぶ。
我々は、限られた数の環境相互作用に対して、与えられたシステムを最適に探索するアクションシーケンスを計算する。
本手法の有効性を,非線形な玩具・プロブレムと2つのよく知られた強化学習環境において示す。
論文 参考訳(メタデータ) (2021-02-22T22:52:39Z) - Context-aware Dynamics Model for Generalization in Model-Based
Reinforcement Learning [124.9856253431878]
グローバルなダイナミクスモデルを学習するタスクを,(a)ローカルなダイナミクスをキャプチャするコンテキスト潜在ベクトルを学習し,(b)次に条件付き状態を予測するという2つの段階に分割する。
本研究では,コンテキスト潜在ベクトルに動的情報をエンコードするために,コンテキスト潜在ベクトルを前方と後方の両方のダイナミクスを予測するのに役立つような新しい損失関数を導入する。
提案手法は,既存のRL方式と比較して,様々なシミュレーションロボットや制御タスクの一般化能力に優れる。
論文 参考訳(メタデータ) (2020-05-14T08:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。