論文の概要: Fast and Robust: Task Sampling with Posterior and Diversity Synergies for Adaptive Decision-Makers in Randomized Environments
- arxiv url: http://arxiv.org/abs/2504.19139v1
- Date: Sun, 27 Apr 2025 07:27:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.147767
- Title: Fast and Robust: Task Sampling with Posterior and Diversity Synergies for Adaptive Decision-Makers in Randomized Environments
- Title(参考訳): 高速かつロバストなタスクサンプリング:ランダムな環境における適応的意思決定者のための後・多様性シナジーを用いたタスクサンプリング
- Authors: Yun Qu, Qi, Wang, Yixiu Mao, Yiqin Lv, Xiangyang Ji,
- Abstract要約: Posterior and Diversity Synergized Task Smpling (PDTS) は、高速かつ堅牢なシーケンシャルな意思決定を実現するための、実装が容易な方法である。
PDTSは、堅牢なアクティブタスクサンプリングの可能性を解き、挑戦的なタスクにおけるゼロショットおよび少数ショット適応ロバスト性を大幅に改善し、特定のシナリオ下での学習プロセスを加速する。
- 参考スコア(独自算出の注目度): 78.15330971155778
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Task robust adaptation is a long-standing pursuit in sequential decision-making. Some risk-averse strategies, e.g., the conditional value-at-risk principle, are incorporated in domain randomization or meta reinforcement learning to prioritize difficult tasks in optimization, which demand costly intensive evaluations. The efficiency issue prompts the development of robust active task sampling to train adaptive policies, where risk-predictive models are used to surrogate policy evaluation. This work characterizes the optimization pipeline of robust active task sampling as a Markov decision process, posits theoretical and practical insights, and constitutes robustness concepts in risk-averse scenarios. Importantly, we propose an easy-to-implement method, referred to as Posterior and Diversity Synergized Task Sampling (PDTS), to accommodate fast and robust sequential decision-making. Extensive experiments show that PDTS unlocks the potential of robust active task sampling, significantly improves the zero-shot and few-shot adaptation robustness in challenging tasks, and even accelerates the learning process under certain scenarios. Our project website is at https://thu-rllab.github.io/PDTS_project_page.
- Abstract(参考訳): タスクロバスト適応は、シーケンシャルな意思決定における長年の追求である。
リスク-逆戦略(例えば、条件付き価値-リスク原理)は、ドメインランダム化やメタ強化学習に組み込まれ、最適化において困難なタスクを優先し、コストのかかる評価を必要とする。
この効率問題は、リスク予測モデルを用いて政策評価を代理する適応政策を訓練するための堅牢なアクティブタスクサンプリングの開発を促す。
この研究は、マルコフ決定過程として頑健なアクティブタスクサンプリングの最適化パイプラインを特徴付け、理論的および実践的な洞察を示し、リスク-逆シナリオにおけるロバストネスの概念を構成する。
重要なことは、高速かつ堅牢なシーケンシャルな意思決定を実現するために、Posterior and Diversity Synergized Task Sampling (PDTS) と呼ばれる実装が容易な方法を提案することである。
大規模な実験により、PDTSは堅牢なアクティブタスクサンプリングの可能性を解き明かし、挑戦的なタスクにおけるゼロショットおよび少数ショット適応ロバスト性を大幅に改善し、特定のシナリオ下での学習プロセスを加速することさえ示している。
プロジェクトのWebサイトはhttps://thu-rllab.github.io/PDTS_project_page.orgにある。
関連論文リスト
- XPG-RL: Reinforcement Learning with Explainable Priority Guidance for Efficiency-Boosted Mechanical Search [0.10241134756773229]
エージェントが機械的な探索タスクを効率的に実行できる強化学習フレームワークXPG-RLを紹介する。
XPG-RLはタスク駆動型アクション優先順位付け機構と学習コンテキスト対応スイッチング戦略を統合する。
XPG-RLはタスク成功率と動作効率において、ベースライン法を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-04-29T17:37:45Z) - Causally Aligned Curriculum Learning [69.11672390876763]
本稿では、因果レンズによるカリキュラムRLの問題について検討する。
因果的に整合したソースタスクを特徴付ける十分なグラフィカルな条件を導出する。
因果整合型カリキュラムを生成するための効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-03-21T02:20:38Z) - Efficient Risk-sensitive Planning via Entropic Risk Measures [51.42922439693624]
動的プログラミングにより,エントロピーリスク対策(EntRM)のみを効率的に最適化できることを示す。
エントロピーリスクの新たな構造解析と滑らかさ特性により, この最適性を効果的に計算できることを実証する。
論文 参考訳(メタデータ) (2025-02-27T09:56:51Z) - Model Predictive Task Sampling for Efficient and Robust Adaptation [46.92143725900031]
本稿では,タスク空間と適応リスクランドスケープを橋渡しするフレームワークとして,モデル予測タスクサンプリング(MPTS)を紹介する。
MPTSは、エピソード最適化プロセスの特徴付けに生成モデルを使用し、後部推論によりタスク固有の適応リスクを予測する。
MPTSはゼロショット、少数ショット、教師付き微調整設定にシームレスに統合される。
論文 参考訳(メタデータ) (2025-01-19T13:14:53Z) - Task-Aware Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [70.96345405979179]
オフラインマルチタスク強化学習(MTRL)の目的は、オンライン環境相互作用を必要とせず、多様なタスクに適用可能な統一されたポリシーを開発することである。
タスクの内容と複雑さの変化は、政策の定式化において重大な課題を引き起こします。
本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。
論文 参考訳(メタデータ) (2024-11-02T05:49:14Z) - Meta-Reinforcement Learning Based on Self-Supervised Task Representation
Learning [23.45043290237396]
MoSSは、自己監督型タスク表現学習に基づくコンテキストベースメタ強化学習アルゴリズムである。
MuJoCoとMeta-Worldのベンチマークでは、MoSSはパフォーマンス、サンプル効率(3-50倍高速)、適応効率、一般化の点で先行して性能が向上している。
論文 参考訳(メタデータ) (2023-04-29T15:46:19Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Multimodal Safety-Critical Scenarios Generation for Decision-Making
Algorithms Evaluation [23.43175124406634]
既存のニューラルネットワークベースの自律システムは、敵の攻撃に対して脆弱であることが示されている。
意思決定アルゴリズムの評価のためのフローベースマルチモーダル安全クリティカルシナリオジェネレータを提案する。
生成したトラフィックシナリオを用いて6つの強化学習アルゴリズムを評価し,その堅牢性に関する実証的な結論を提供する。
論文 参考訳(メタデータ) (2020-09-16T15:16:43Z) - SOAC: The Soft Option Actor-Critic Architecture [25.198302636265286]
低レベルのオプション内ポリシーと高レベルのオプション選択ポリシーを同時に学習する手法が提案されている。
既存の手法は通常、非効率な探索と不安定な更新という2つの大きな課題に悩まされる。
これらの課題に対処するために、最大エントロピーモデルに基づく、新しく安定した非政治的アプローチを提案する。
論文 参考訳(メタデータ) (2020-06-25T13:06:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。