論文の概要: BiTrajDiff: Bidirectional Trajectory Generation with Diffusion Models for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.05762v1
- Date: Fri, 06 Jun 2025 05:41:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.33725
- Title: BiTrajDiff: Bidirectional Trajectory Generation with Diffusion Models for Offline Reinforcement Learning
- Title(参考訳): BiTrajDiff:オフライン強化学習のための拡散モデルを用いた双方向軌道生成
- Authors: Yunpeng Qing, Shuo Chen, Yixiao Chi, Shunyu Liu, Sixu Lin, Changqing Zou,
- Abstract要約: BiTrajDiffは、オフライン強化学習(RL)のための新しいDAフレームワークである
軌道生成タスクを2つの独立かつ相補的な拡散過程に分解する。
BiTrajDiffは、重要状態をアンカーとして効果的に利用して、潜在的に価値ある未探索領域に拡張することができる。
- 参考スコア(独自算出の注目度): 11.850736201059217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in offline Reinforcement Learning (RL) have proven that effective policy learning can benefit from imposing conservative constraints on pre-collected datasets. However, such static datasets often exhibit distribution bias, resulting in limited generalizability. To address this limitation, a straightforward solution is data augmentation (DA), which leverages generative models to enrich data distribution. Despite the promising results, current DA techniques focus solely on reconstructing future trajectories from given states, while ignoring the exploration of history transitions that reach them. This single-direction paradigm inevitably hinders the discovery of diverse behavior patterns, especially those leading to critical states that may have yielded high-reward outcomes. In this work, we introduce Bidirectional Trajectory Diffusion (BiTrajDiff), a novel DA framework for offline RL that models both future and history trajectories from any intermediate states. Specifically, we decompose the trajectory generation task into two independent yet complementary diffusion processes: one generating forward trajectories to predict future dynamics, and the other generating backward trajectories to trace essential history transitions.BiTrajDiff can efficiently leverage critical states as anchors to expand into potentially valuable yet underexplored regions of the state space, thereby facilitating dataset diversity. Extensive experiments on the D4RL benchmark suite demonstrate that BiTrajDiff achieves superior performance compared to other advanced DA methods across various offline RL backbones.
- Abstract(参考訳): オフライン強化学習(RL)の最近の進歩は、効果的なポリシー学習が、事前コンパイルされたデータセットに保守的な制約を課すことによって恩恵を受けることを証明している。
しかし、そのような静的データセットはしばしば分布バイアスを示し、結果として一般化性は制限される。
この制限に対処するため、単純な解決策はデータ拡張(DA)であり、データ分散を豊かにするために生成モデルを活用する。
有望な結果にもかかわらず、現在のDA技術は、与えられた州から将来の軌跡を再構築することのみに焦点を当て、それらに到達する歴史遷移の探索を無視している。
この単一方向のパラダイムは、必然的に多様な行動パターンの発見を妨げる。
本研究では, 双方向軌道拡散(BiTrajDiff, Bidirectional Trajectory Diffusion, BiTrajDiff)を紹介する。
具体的には、トラジェクトリ生成タスクを2つの独立した相補的拡散プロセスに分解する。一方は、将来のダイナミクスを予測する前方軌道を生成するもので、他方は、本質的な歴史遷移を辿るために後方軌道を生成するもので、BiTrajDiffは、アンカーとして重要な状態を効果的に活用して、状態空間の潜在的に価値ある未探索領域へと拡張し、データセットの多様性を促進する。
D4RLベンチマークスイートでの大規模な実験により、BiTrajDiffは、様々なオフラインRLバックボーンにわたる他の高度なDAメソッドと比較して、優れたパフォーマンスを実現していることが示された。
関連論文リスト
- Integrating Intermediate Layer Optimization and Projected Gradient Descent for Solving Inverse Problems with Diffusion Models [24.745502021162878]
逆問題(IP)はノイズの観測から信号を再構成する。
DMはIPを解くための強力なフレームワークとして登場し、優れた再構築性能を実現している。
既存のDMベースの手法は、重い計算要求や準最適収束といった問題に頻繁に遭遇する。
これらの課題に対処するために,DMILOとDMILO-PGDという2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-27T06:49:02Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Contrastive Diffuser: Planning Towards High Return States via Contrastive Learning [24.654686581207343]
オフライン強化学習(RL)の性能は、オフラインデータセットにおけるハイリターン軌道の割合に敏感である。
本稿では,低リターントラジェクトリをフル活用し,オフラインRLアルゴリズムの性能を向上させるために,Contrastive diffuser (CDiffuser)を提案する。
論文 参考訳(メタデータ) (2024-02-05T07:12:02Z) - DiffStitch: Boosting Offline Reinforcement Learning with Diffusion-based
Trajectory Stitching [21.263554926053178]
オフライン強化学習(RL)では、学習ポリシーのパフォーマンスはオフラインデータセットの品質に大きく依存する。
本稿では拡散に基づく新しいデータ拡張パイプラインであるDiffStitchについて紹介する。
DiffStitchは、ローリワード軌道と高リワード軌道を効果的に接続し、オフラインRLアルゴリズムが直面する課題に対処するために、グローバルに最適な軌道を形成する。
論文 参考訳(メタデータ) (2024-02-04T10:30:23Z) - CUDC: A Curiosity-Driven Unsupervised Data Collection Method with
Adaptive Temporal Distances for Offline Reinforcement Learning [62.58375643251612]
本稿では,Curiosity-driven Unsupervised Data Collection (CUDC)法を提案する。
この適応的な到達性機構により、特徴表現は多様化することができ、エージェントは、好奇心で高品質なデータを集めるために自分自身をナビゲートすることができる。
実験的に、CUDCはDeepMindコントロールスイートの様々なダウンストリームオフラインRLタスクにおいて、既存の教師なし手法よりも効率と学習性能が優れている。
論文 参考訳(メタデータ) (2023-12-19T14:26:23Z) - Double Check Your State Before Trusting It: Confidence-Aware
Bidirectional Offline Model-Based Imagination [31.805991958408438]
トレーニングされた双方向ダイナミクスモデルとロールアウトポリシをダブルチェックで使用することにより,オフラインデータセットの強化を提案する。
提案手法は,信頼度を考慮した双方向オフラインモデルに基づくイマジネーションであり,信頼度の高いサンプルを生成し,任意のモデルレスオフラインRL法と組み合わせることができる。
論文 参考訳(メタデータ) (2022-06-16T08:00:44Z) - PlayVirtual: Augmenting Cycle-Consistent Virtual Trajectories for
Reinforcement Learning [84.30765628008207]
本稿では,RL特徴表現学習におけるデータ効率を向上させるために,サイクル一貫性のある仮想トラジェクトリを付加するPlayVirtualという新しい手法を提案する。
本手法は,両ベンチマークにおいて,最先端の手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2021-06-08T07:37:37Z) - Continuous Transition: Improving Sample Efficiency for Continuous
Control Problems via MixUp [119.69304125647785]
本稿では,連続的遷移を構築するための簡潔かつ強力な手法を提案する。
具体的には、連続的な遷移を線形に補間することにより、トレーニングのための新しい遷移を合成することを提案する。
また, 建設過程を自動案内する判別器を開発した。
論文 参考訳(メタデータ) (2020-11-30T01:20:23Z) - Haar Wavelet based Block Autoregressive Flows for Trajectories [129.37479472754083]
歩行者等の軌道予測は,自律型エージェントの性能向上に不可欠である。
本稿では分割結合を利用した新しいハールウェーブレットに基づくブロック自己回帰モデルを提案する。
実世界の2つのデータセット上で、多種多様な正確な軌跡を生成するアプローチの利点について説明する。
論文 参考訳(メタデータ) (2020-09-21T13:57:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。