論文の概要: Adjust Planning Strategies to Accommodate Reinforcement Learning Agents
- arxiv url: http://arxiv.org/abs/2003.08554v1
- Date: Thu, 19 Mar 2020 03:35:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 03:39:28.019566
- Title: Adjust Planning Strategies to Accommodate Reinforcement Learning Agents
- Title(参考訳): 強化学習エージェントに対応するための計画戦略の調整
- Authors: Xuerun Chen
- Abstract要約: 我々は、反応と計画の関連性の分析を通じて、パラメーターの最適化戦略を作成する。
アルゴリズム全体では、特定のエージェントの反応能力をフル活用して、計画パラメータの十分な設定を見つけることができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In agent control issues, the idea of combining reinforcement learning and
planning has attracted much attention. Two methods focus on micro and macro
action respectively. Their advantages would show together if there is a good
cooperation between them. An essential for the cooperation is to find an
appropriate boundary, assigning different functions to each method. Such
boundary could be represented by parameters in a planning algorithm. In this
paper, we create an optimization strategy for planning parameters, through
analysis to the connection of reaction and planning; we also create a
non-gradient method for accelerating the optimization. The whole algorithm can
find a satisfactory setting of planning parameters, making full use of reaction
capability of specific agents.
- Abstract(参考訳): エージェント制御の問題では、強化学習と計画の組み合わせというアイデアが注目されている。
2つの方法はそれぞれマイクロアクションとマクロアクションに焦点を当てる。
彼らの利点は、彼らの間に良い協力関係があれば合わさるでしょう。
協調には適切な境界を見つけ、それぞれのメソッドに異なる関数を割り当てることが不可欠である。
このような境界は計画アルゴリズムのパラメータで表すことができる。
本稿では,反応と計画の関連を解析し,計画パラメータの最適化戦略を作成するとともに,最適化を高速化する非段階的手法を提案する。
アルゴリズム全体では、特定のエージェントの反応能力をフル活用して、計画パラメータの十分な設定を見つけることができる。
関連論文リスト
- Parallel Strategies for Best-First Generalized Planning [51.713634067802104]
汎用計画(GP)は、複数の古典的な計画インスタンスを解くことができるアルゴリズムのようなソリューションの自動合成を研究するAIの研究分野である。
現在の進歩の1つはBest-First Generalized Planning (BFGP) の導入である。
本稿では,並列探索手法をBFGPに適用し,性能ギャップを埋める上で重要な要素であることを示す。
論文 参考訳(メタデータ) (2024-07-31T09:50:22Z) - Cooperative Bayesian Optimization for Imperfect Agents [32.15315995944448]
2つのエージェントは、関数を問合せするポイントを一緒に選ぶが、それぞれ1つの変数だけを制御する。
提案手法を逐次意思決定として定式化し,制御するエージェントは,関数に関する事前知識を持つ計算的合理的なエージェントとしてユーザをモデル化する。
本研究では,ユーザが過剰な探索を避ける限り,クエリの戦略的計画により,関数のグローバルな最大値の同定がより容易であることを示す。
論文 参考訳(メタデータ) (2024-03-07T12:16:51Z) - Experiment Planning with Function Approximation [49.50254688629728]
本研究では,文脈的帯域幅問題における関数近似を用いた実験計画の問題点について検討する。
本稿では,関数近似に適合する2つの実験計画戦略を提案する。
そこで, 均一サンプリング器は, 動作数が少ない設定において, 競合最適性を達成できることを示す。
論文 参考訳(メタデータ) (2024-01-10T14:40:23Z) - Planning as In-Painting: A Diffusion-Based Embodied Task Planning
Framework for Environments under Uncertainty [56.30846158280031]
具体的AIのためのタスクプランニングは、最も難しい問題の1つだ。
In-paintingとしての計画」というタスク非依存の手法を提案する。
提案するフレームワークは,様々な具体的AIタスクにおいて,有望なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-02T10:07:17Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Optimal Cost-Preference Trade-off Planning with Multiple Temporal Tasks [3.655021726150368]
個別のタスクやその関係性よりも好みを表現できる汎用的な枠組みを提供する新しい選好概念を導入する。
我々は,ユーザの好みに従属する行動と,リソース最適である行動の最適トレードオフ(Pareto)分析を行う。
論文 参考訳(メタデータ) (2023-06-22T21:56:49Z) - Efficient Planning in Combinatorial Action Spaces with Applications to
Cooperative Multi-Agent Reinforcement Learning [16.844525262228103]
協調型マルチエージェント強化学習では、多数のエージェントが共同でグローバル報酬関数を最適化し、エージェントの数によってアクション空間が爆発する。
最小限の要件として、モデルクラスの任意のQ-関数に対する欲求ポリシーを効率的に計算できるargmaxオラクルへのアクセスを仮定する。
そこで本研究では,全ての問題パラメータの計算と問合せを複雑化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-08T23:42:49Z) - Learn to Match with No Regret: Reinforcement Learning in Markov Matching
Markets [151.03738099494765]
我々は、市場の両側でプランナーと戦略エージェントのセットを含むマルコフマッチング市場について検討する。
本稿では,楽観的な値反復と最大重みマッチングを組み合わせた強化学習フレームワークを提案する。
我々は,アルゴリズムがサブ線形後悔を実現することを証明した。
論文 参考訳(メタデータ) (2022-03-07T19:51:25Z) - Extended Task and Motion Planning of Long-horizon Robot Manipulation [28.951816622135922]
タスクとモーション計画(TAMP)には、シンボリック推論とメトリックモーション計画の統合が必要です。
ほとんどのtampアプローチは、シンボリックレベルで環境に関する知識が欠けている場合、実現可能なソリューションを提供しない。
本稿では,計画骨格と行動パラメータに対する決定空間の拡張に関する新たな意思決定手法を提案する。
論文 参考訳(メタデータ) (2021-03-09T14:44:08Z) - A Unifying Framework for Reinforcement Learning and Planning [2.564530030795554]
本稿では、強化学習計画(FRAP)のための統一的アルゴリズムフレームワークを提案する。
論文の最後には、これらの次元に沿って、よく知られたプランニング、モデルフリー、モデルベースRLアルゴリズムを比較した。
論文 参考訳(メタデータ) (2020-06-26T14:30:41Z) - Divide-and-Conquer Monte Carlo Tree Search For Goal-Directed Planning [78.65083326918351]
暗黙的な逐次計画の仮定に代わるものを検討する。
本稿では,最適計画の近似を行うため,Divide-and-Conquer Monte Carlo Tree Search (DC-MCTS)を提案する。
計画順序に対するこのアルゴリズム的柔軟性は,グリッドワールドにおけるナビゲーションタスクの改善に繋がることを示す。
論文 参考訳(メタデータ) (2020-04-23T18:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。