Fugu-MT 論文翻訳(概要): Off-dynamics Conditional Diffusion Planners

論文の概要: Off-dynamics Conditional Diffusion Planners

arxiv url: http://arxiv.org/abs/2410.12238v1
Date: Wed, 16 Oct 2024 04:56:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:36.14269
Title: Off-dynamics Conditional Diffusion Planners
Title（参考訳）: オフダイナミックス条件拡散プランナ
Authors: Wen Zheng Terence Ng, Jianda Chen, Tianwei Zhang,
Abstract要約: この研究は、オフラインRLにおけるデータ不足の課題に対処するために、より容易に利用できるオフダイナミックスデータセットの使用を探求する。本研究では,DPMを用いた大規模オフダイナミックスデータセットと限定ターゲットデータセットの連成分布の学習手法を提案する。
参考スコア（独自算出の注目度）: 15.321049697197447
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Offline Reinforcement Learning (RL) offers an attractive alternative to interactive data acquisition by leveraging pre-existing datasets. However, its effectiveness hinges on the quantity and quality of the data samples. This work explores the use of more readily available, albeit off-dynamics datasets, to address the challenge of data scarcity in Offline RL. We propose a novel approach using conditional Diffusion Probabilistic Models (DPMs) to learn the joint distribution of the large-scale off-dynamics dataset and the limited target dataset. To enable the model to capture the underlying dynamics structure, we introduce two contexts for the conditional model: (1) a continuous dynamics score allows for partial overlap between trajectories from both datasets, providing the model with richer information; (2) an inverse-dynamics context guides the model to generate trajectories that adhere to the target environment's dynamic constraints. Empirical results demonstrate that our method significantly outperforms several strong baselines. Ablation studies further reveal the critical role of each dynamics context. Additionally, our model demonstrates that by modifying the context, we can interpolate between source and target dynamics, making it more robust to subtle shifts in the environment.
Abstract（参考訳）: オフライン強化学習(RL)は、既存のデータセットを活用することで、インタラクティブなデータ取得の魅力的な代替手段を提供する。しかし、その有効性はデータサンプルの量と品質に依存している。この研究は、オフラインRLにおけるデータ不足の課題に対処するために、より容易に利用できるオフダイナミックスデータセットの使用を探求する。本研究では,DPMを用いた大規模オフダイナミックスデータセットと限定ターゲットデータセットの連成分布の学習手法を提案する。 1) 連続力学スコアは、両方のデータセットからのトラジェクトリ間の部分的な重複を許容し、よりリッチな情報を提供する。(2) 逆力学コンテキストは、ターゲット環境のダイナミックな制約に固執するトラジェクトリを生成するためにモデルをガイドする。実験結果から,本手法はいくつかの強いベースラインを著しく上回ることがわかった。アブレーション研究はさらに、各ダイナミクスの文脈における重要な役割を明らかにしている。さらに、我々のモデルは、コンテキストを変更することで、ソースとターゲットのダイナミクスを補間することができ、環境の微妙な変化に対してより堅牢になることを示す。

関連論文リスト

Multimodal-Guided Dynamic Dataset Pruning for Robust and Efficient Data-Centric Learning [49.10890099624699]
本稿では,タスク駆動の難易度とモダリティ間のセマンティクスの整合性に基づいて,トレーニングサンプルを適応的に選択する動的データセット解析フレームワークを提案する。私たちの研究は、堅牢なサンプル選択のためのモダリティアライメントの統合の可能性を強調し、アプリケーションドメイン全体のより効率的で堅牢なプラクティスに向けて、データ中心の学習を進めています。
論文参考訳（メタデータ） (2025-07-17T03:08:26Z)
Extension OL-MDISF: Online Learning from Mix-Typed, Drifted, and Incomplete Streaming Features [13.987655062880089]
混合特徴型を持つ実世界のデータストリームは、従来のパラメトリックモデリングの課題を示す。時間とコストの制約により、教師付き設定ですべてのデータインスタンスをラベル付けすることは不可能になります。 Mix-typed, Drifted, Incomplete Streaming Features (OL-MDISF) によるオンライン学習は,機能タイプ,データ分散,および監視情報の制限を緩和することを目的としている。
論文参考訳（メタデータ） (2025-07-12T02:44:25Z)
Composite Flow Matching for Reinforcement Learning with Shifted-Dynamics Data [33.9944806028575]
CompFlowは、フローマッチングと最適輸送の間の理論的接続を基礎とする手法である。我々は、ソース・ドメインフローの出力分布に基づいて構築された条件フローとして、ターゲットダイナミクスをモデル化する。 CompFlowは、動的に変化する複数のRLベンチマークにおいて、強いベースラインを上回ります。
論文参考訳（メタデータ） (2025-05-29T04:09:19Z)
Model-Based Offline Reinforcement Learning with Adversarial Data Augmentation [36.9134885948595]
本稿では,AdversariaLデータ拡張を用いたモデルベースオフライン強化学習について紹介する。 MoRALでは,エンサンブルモデルと交互サンプリングを行うために,エンサンブルデータ拡張を用いて固定水平線ロールアウトを置き換える。 D4RLベンチマークの実験では、MORALはポリシー学習やサンプル効率の観点から、他のモデルベースのオフラインRLメソッドよりも優れていた。
論文参考訳（メタデータ） (2025-03-26T07:24:34Z)
Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models [31.509112804985133]
強化学習(Reinforcement Learning, RL)は、試行錯誤と最適制御を通じてポリシーを学習し、学習または既知の力学モデルを用いてアクションを計画する。異なる品質のデータセットを用いて、異なるRLおよび制御に基づく手法の性能を系統的に解析する。モデルベースプランニングは,新しい環境レイアウト,トラジェクトリー縫合,データ効率などへの一般化に優れる。
論文参考訳（メタデータ） (2025-02-20T18:39:41Z)
Model-Based Offline Reinforcement Learning with Reliability-Guaranteed Sequence Modeling [0.0]
モデルベースオフライン強化学習(MORL)は、既存のデータセットから派生した動的モデルを利用してポリシーを学習することを目的としている。信頼性の低いトラジェクトリを除去できる新しいMORLアルゴリズム textbfReliability-guaranteed textbfTransformer (RT) を提案する。
論文参考訳（メタデータ） (2025-02-10T14:08:55Z)
Synthetic location trajectory generation using categorical diffusion models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文参考訳（メタデータ） (2024-02-19T15:57:39Z)
Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-22T02:12:08Z)
Joint Distributional Learning via Cramer-Wold Distance [0.7614628596146602]
高次元データセットの共分散学習を容易にするために,クレーマー-ウォルド距離正規化を導入し,クレーマー-ウォルド距離正規化法を提案する。また、フレキシブルな事前モデリングを可能にする2段階学習手法を導入し、集約後と事前分布のアライメントを改善する。
論文参考訳（メタデータ） (2023-10-25T05:24:23Z)
Amortized Network Intervention to Steer the Excitatory Point Processes [8.15558505134853]
動的グラフ上に発生する励起点過程(すなわちイベントフロー)は、時間と空間を通じて離散事象がどのように広がるかを把握するためのきめ細かいモデルを提供する。動的グラフ構造を変更してイベントフローを効果的に操縦する方法は、感染症の拡散を抑制する動機となる興味深い問題である。我々はAmortized Network Interventionsフレームワークを設計し、履歴やその他のコンテキストから最適なポリシーをプールできるようにする。
論文参考訳（メタデータ） (2023-10-06T11:17:28Z)
Learning Latent Dynamics via Invariant Decomposition and (Spatio-)Temporal Transformers [0.6767885381740952]
本研究では,高次元経験データから力学系を学習する手法を提案する。我々は、システムの複数の異なるインスタンスからデータが利用できる設定に焦点を当てる。我々は、単純な理論的分析と、合成および実世界のデータセットに関する広範な実験を通して行動を研究する。
論文参考訳（メタデータ） (2023-06-21T07:52:07Z)
Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文参考訳（メタデータ） (2022-10-07T17:56:53Z)
Learning Sequential Latent Variable Models from Multimodal Time Series Data [6.107812768939553]
マルチモーダルデータの確率的潜在状態表現を協調的に学習するための自己教師付き生成モデリングフレームワークを提案する。提案手法が予測品質と表現品質を大幅に向上させることを示す。
論文参考訳（メタデータ） (2022-04-21T21:59:24Z)
Learning to Continuously Optimize Wireless Resource in a Dynamic Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文参考訳（メタデータ） (2021-05-03T07:23:39Z)
Autoregressive Dynamics Models for Offline Policy Evaluation and Optimization [60.73540999409032]
表現的自己回帰ダイナミクスモデルが次の状態の異なる次元を生成し、以前の次元で順次条件付きで報酬を得ることを示す。また,リプレイバッファを充実させる手段として,自己回帰的ダイナミクスモデルがオフラインポリシー最適化に有用であることを示す。
論文参考訳（メタデータ） (2021-04-28T16:48:44Z)
Explore the Context: Optimal Data Collection for Context-Conditional Dynamics Models [7.766117084613689]
我々は、様々な性質を持つ力学系のパラメタライズドファミリーの力学モデルを学ぶ。我々は、限られた数の環境相互作用に対して、与えられたシステムを最適に探索するアクションシーケンスを計算する。本手法の有効性を,非線形な玩具・プロブレムと2つのよく知られた強化学習環境において示す。
論文参考訳（メタデータ） (2021-02-22T22:52:39Z)
Context-aware Dynamics Model for Generalization in Model-Based Reinforcement Learning [124.9856253431878]
グローバルなダイナミクスモデルを学習するタスクを,(a)ローカルなダイナミクスをキャプチャするコンテキスト潜在ベクトルを学習し,(b)次に条件付き状態を予測するという2つの段階に分割する。本研究では,コンテキスト潜在ベクトルに動的情報をエンコードするために,コンテキスト潜在ベクトルを前方と後方の両方のダイナミクスを予測するのに役立つような新しい損失関数を導入する。提案手法は,既存のRL方式と比較して,様々なシミュレーションロボットや制御タスクの一般化能力に優れる。
論文参考訳（メタデータ） (2020-05-14T08:10:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。