論文の概要: Beyond the Known: Decision Making with Counterfactual Reasoning Decision Transformer
- arxiv url: http://arxiv.org/abs/2505.09114v1
- Date: Wed, 14 May 2025 03:45:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.366476
- Title: Beyond the Known: Decision Making with Counterfactual Reasoning Decision Transformer
- Title(参考訳): 擬似推論型決定変換器による意思決定
- Authors: Minh Hoang Nguyen, Linh Le Pham Van, Thommen George Karimpanal, Sunil Gupta, Hung Le,
- Abstract要約: 決定変換器(DT)は、オフラインデータセットを活用して、さまざまな領域にわたる印象的な結果を達成する、現代的な強化学習において重要な役割を果たす。
本稿では,反現実的推論に触発された新しいフレームワークであるCRDTを提案する。
- 参考スコア(独自算出の注目度): 29.029659384955206
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Decision Transformers (DT) play a crucial role in modern reinforcement learning, leveraging offline datasets to achieve impressive results across various domains. However, DT requires high-quality, comprehensive data to perform optimally. In real-world applications, the lack of training data and the scarcity of optimal behaviours make training on offline datasets challenging, as suboptimal data can hinder performance. To address this, we propose the Counterfactual Reasoning Decision Transformer (CRDT), a novel framework inspired by counterfactual reasoning. CRDT enhances DT ability to reason beyond known data by generating and utilizing counterfactual experiences, enabling improved decision-making in unseen scenarios. Experiments across Atari and D4RL benchmarks, including scenarios with limited data and altered dynamics, demonstrate that CRDT outperforms conventional DT approaches. Additionally, reasoning counterfactually allows the DT agent to obtain stitching abilities, combining suboptimal trajectories, without architectural modifications. These results highlight the potential of counterfactual reasoning to enhance reinforcement learning agents' performance and generalization capabilities.
- Abstract(参考訳): 決定変換器(DT)は、オフラインデータセットを活用して、さまざまな領域にわたる印象的な結果を達成する、現代的な強化学習において重要な役割を果たす。
しかし、DTは最適なパフォーマンスを得るために高品質で包括的なデータを必要とします。
現実世界のアプリケーションでは、トレーニングデータの欠如と最適な振る舞いの不足が、オフラインデータセットでのトレーニングを難しくしている。
そこで本研究では,非現実的推論に触発された新しいフレームワークであるCRDTを提案する。
CRDTは、カウンターファクトエクスペリエンスの生成と利用によって、既知のデータを推論するDT機能を強化し、目に見えないシナリオにおける意思決定の改善を可能にします。
AtariとD4RLベンチマークでの実験では、制限されたデータと変更されたダイナミックスを含む、CRDTが従来のDTアプローチより優れていることが示されている。
さらに、推理によってDTエージェントは、設計上の変更を伴わずに、最適下方軌道を組み合わせて縫合能力を得ることができる。
これらの結果は、強化学習エージェントの性能と一般化能力を高めるための反実的推論の可能性を強調している。
関連論文リスト
- Predictive Coding for Decision Transformer [21.28952990360392]
決定変換器(DT)アーキテクチャは、様々な領域で約束されている。
最初の成功にもかかわらず、DTはゴール条件付きRLのいくつかの挑戦的なデータセットで性能が劣っている。
本稿では、一般化された将来の条件付けを活用してDT手法を強化するPCDT(Predictive Coding for Decision Transformer)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-04T13:17:34Z) - Sustainable Diffusion-based Incentive Mechanism for Generative AI-driven Digital Twins in Industrial Cyber-Physical Systems [65.22300383287904]
産業用サイバー物理システム(ICPS)は、現代の製造業と産業にとって不可欠なコンポーネントである。
製品ライフサイクルを通じてデータをデジタル化することにより、ICPSのDigital Twins(DT)は、現在の産業インフラからインテリジェントで適応的なインフラへの移行を可能にします。
GenAIはDTの構築と更新を推進し、予測精度を改善し、多様なスマート製造に備える。
論文 参考訳(メタデータ) (2024-08-02T10:47:10Z) - Tackling Data Corruption in Offline Reinforcement Learning via Sequence Modeling [35.2859997591196]
オフラインの強化学習は、データ駆動意思決定のスケーリングを約束する。
しかし、センサーや人間から収集された現実世界のデータには、しばしばノイズやエラーが含まれている。
我々の研究によると、データセットが制限された場合、先行研究はデータの破損の下では不十分である。
論文 参考訳(メタデータ) (2024-07-05T06:34:32Z) - Solving Continual Offline Reinforcement Learning with Decision Transformer [78.59473797783673]
連続的オフライン強化学習(CORL)は、連続的およびオフライン的な強化学習を組み合わせたものである。
Actor-Critic構造とエクスペリエンス・リプレイ(ER)を取り入れた既存の手法は、分散シフト、低効率、知識共有の弱さに悩まされている。
我々は,マルチヘッドDT (MH-DT) とローランク適応DT (LoRA-DT) を導入し,DTの無視問題を緩和する。
論文 参考訳(メタデータ) (2024-01-16T16:28:32Z) - Rethinking Decision Transformer via Hierarchical Reinforcement Learning [54.3596066989024]
決定変換器(Decision Transformer, DT)は、強化学習(RL)における変換器アーキテクチャの最近の進歩を活用する革新的なアルゴリズムである。
本稿では,階層RLのレンズを用いたシーケンシャル意思決定のための汎用シーケンスモデリングフレームワークを提案する。
DTは、高レベルかつ低レベルなポリシーを選択することで、このフレームワークの特別なケースとして現れ、これらの選択の潜在的な失敗について議論する。
論文 参考訳(メタデータ) (2023-11-01T03:32:13Z) - Improving GANs with A Dynamic Discriminator [106.54552336711997]
我々は、オンザフライで調整可能な判別器は、そのような時間変化に適応できると論じる。
総合的な実証研究により、提案したトレーニング戦略がDynamicDと呼ばれ、追加のコストやトレーニング目標を発生させることなく、合成性能を向上させることが確認された。
論文 参考訳(メタデータ) (2022-09-20T17:57:33Z) - Augmentation-Aware Self-Supervision for Data-Efficient GAN Training [68.81471633374393]
識別器が過度に適合する傾向があるため、限られたデータでGANを訓練することは困難である。
本稿では,拡張データの拡張パラメータを予測する,拡張型自己教師型識別器を提案する。
本稿では,クラス条件の BigGAN と非条件の StyleGAN2 アーキテクチャを用いた State-of-the-art (SOTA) 手法と比較する。
論文 参考訳(メタデータ) (2022-05-31T10:35:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。