論文の概要: Addressing Myopic Constrained POMDP Planning with Recursive Dual Ascent
- arxiv url: http://arxiv.org/abs/2403.17358v1
- Date: Tue, 26 Mar 2024 03:46:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 16:45:50.132815
- Title: Addressing Myopic Constrained POMDP Planning with Recursive Dual Ascent
- Title(参考訳): Recursive Dual Ascent を用いた筋萎縮性POMDP計画への取り組み
- Authors: Paula Stocco, Suhas Chundi, Arec Jamgochian, Mykel J. Kochenderfer,
- Abstract要約: 我々は,大域的双対パラメータが探索中の筋活動選択に繋がることを示した。
局所的な行動選択をガイドする履歴依存型2変数を導入する。
モチベーション玩具の事例と2種類の大型CPOMDPについて,本手法の有効性を実証的に比較した。
- 参考スコア(独自算出の注目度): 33.774939728834156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lagrangian-guided Monte Carlo tree search with global dual ascent has been applied to solve large constrained partially observable Markov decision processes (CPOMDPs) online. In this work, we demonstrate that these global dual parameters can lead to myopic action selection during exploration, ultimately leading to suboptimal decision making. To address this, we introduce history-dependent dual variables that guide local action selection and are optimized with recursive dual ascent. We empirically compare the performance of our approach on a motivating toy example and two large CPOMDPs, demonstrating improved exploration, and ultimately, safer outcomes.
- Abstract(参考訳): ラグランジアン誘導のモンテカルロ木探索は、大規模な制約付き部分的に観測可能なマルコフ決定過程(CPOMDP)をオンラインで解くために応用されている。
本研究では、これらの大域的双対パラメータが探索中の筋活動選択につながり、究極的には最適下決定に繋がることを示した。
そこで本研究では,局所的な行動選択を誘導し,再帰的2重昇華を最適化する履歴依存型2次変数を提案する。
我々は,モチベーション玩具の事例と2つの大きなCPOMDPに対するアプローチの性能を実証的に比較し,改良された探索,そして究極的にはより安全な結果を示した。
関連論文リスト
- DPPA: Pruning Method for Large Language Model to Model Merging [39.13317231533299]
本稿では、複雑な微調整モデルを統合するという課題に対処するため、DPPA(Dynamic Pruning Partition Amplification)と呼ばれる2段階の手法を提案する。
提案手法は,ドメイン固有のパラメータの20%しか保持せず,他の手法に匹敵する性能を提供する。
提案手法では, プレニング後の性能が優れており, モデルマージにおける性能が20%近く向上した。
論文 参考訳(メタデータ) (2024-03-05T09:12:49Z) - Adaptive trajectory-constrained exploration strategy for deep
reinforcement learning [6.589742080994319]
深層強化学習 (DRL) は, まばらさや虚偽の報奨や大きな状態空間を持つタスクにおいて, ハード探索問題に対処する上で, 重大な課題に直面している。
DRLの最適軌道制約探索法を提案する。
2つの大きな2次元グリッドワールド迷路と複数のMuJoCoタスクについて実験を行った。
論文 参考訳(メタデータ) (2023-12-27T07:57:15Z) - Perturbation-Based Two-Stage Multi-Domain Active Learning [31.073745612552926]
本稿では、よく認識されたASP-MTLモデルに組み込んだ摂動型2段階多段階アクティブラーニング(P2S-MDAL)手法を提案する。
P2S-MDALは、ドメインの予算を割り当て、多様性の選択のための領域を確立する。
モデルの共有特徴抽出器のロバスト性を評価するために摂動距離が導入された。
論文 参考訳(メタデータ) (2023-06-19T04:58:32Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Hybridization of evolutionary algorithm and deep reinforcement learning
for multi-objective orienteering optimization [16.23652137705642]
多目的オリエンテーリング問題(MO-OP)は、古典的な多目的ルーティング問題である。
本研究は,MO-OPを問題分解フレームワークを用いて解くことを目的とする。
論文 参考訳(メタデータ) (2022-06-21T15:20:42Z) - Consistency Regularization for Deep Face Anti-Spoofing [69.70647782777051]
顔認証システムでは、顔認証(FAS)が重要な役割を担っている。
このエキサイティングな観察によって、異なる視点の特徴整合性を促進することが、FASモデルを促進するための有望な方法かもしれないと推測する。
FASにおけるEPCR(Embeddding-level and Prediction-level Consistency Regularization)とEPCR(Embeddding-level Consistency Regularization)を併用した。
論文 参考訳(メタデータ) (2021-11-24T08:03:48Z) - Exploration in two-stage recommender systems [79.50534282841618]
2段階のレコメンデータシステムは、スケーラビリティと保守性のために業界で広く採用されている。
このセットアップの鍵となる課題は、各ステージの最適性能が最適なグローバルパフォーマンスを暗示していないことである。
そこで本研究では,ランクとノミネーター間の探索戦略を同期させる手法を提案する。
論文 参考訳(メタデータ) (2020-09-01T16:52:51Z) - Planning in Markov Decision Processes with Gap-Dependent Sample
Complexity [48.98199700043158]
マルコフ決定過程における計画のための新しいトラジェクトリに基づくモンテカルロ木探索アルゴリズム MDP-GapE を提案する。
我々は, MDP-GapE に要求される生成モデルに対する呼び出し回数の上限を証明し, 確率の高い準最適動作を同定する。
論文 参考訳(メタデータ) (2020-06-10T15:05:51Z) - Exploration-Exploitation in Constrained MDPs [79.23623305214275]
拘束マルコフ決定過程(CMDP)における探索・探索ジレンマについて検討する。
未知のCMDPで学習している間、エージェントは、MDPに関する新しい情報を見つけるために、トレードオフ探索を行う必要がある。
エージェントは最終的に良い方針や最適な方針を学習するが、学習プロセス中にエージェントが制約に過度に違反することを望まない。
論文 参考訳(メタデータ) (2020-03-04T17:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。