論文の概要: Learning When and What to Ask: a Hierarchical Reinforcement Learning
Framework
- arxiv url: http://arxiv.org/abs/2110.08258v1
- Date: Thu, 14 Oct 2021 01:30:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 15:11:11.115707
- Title: Learning When and What to Ask: a Hierarchical Reinforcement Learning
Framework
- Title(参考訳): 階層的な強化学習フレームワーク「いつ何を問うべきか」
- Authors: Khanh Nguyen, Yonatan Bisk, Hal Daum\'e III
- Abstract要約: 我々は、人間から追加情報を要求するタイミングを決定するための階層的な強化学習フレームワークを定式化した。
シミュレーションによるナビゲーション問題の結果から,本フレームワークの有効性が示された。
- 参考スコア(独自算出の注目度): 17.017688226277834
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reliable AI agents should be mindful of the limits of their knowledge and
consult humans when sensing that they do not have sufficient knowledge to make
sound decisions. We formulate a hierarchical reinforcement learning framework
for learning to decide when to request additional information from humans and
what type of information would be helpful to request. Our framework extends
partially-observed Markov decision processes (POMDPs) by allowing an agent to
interact with an assistant to leverage their knowledge in accomplishing tasks.
Results on a simulated human-assisted navigation problem demonstrate the
effectiveness of our framework: aided with an interaction policy learned by our
method, a navigation policy achieves up to a 7x improvement in task success
rate compared to performing tasks only by itself. The interaction policy is
also efficient: on average, only a quarter of all actions taken during a task
execution are requests for information. We analyze benefits and challenges of
learning with a hierarchical policy structure and suggest directions for future
work.
- Abstract(参考訳): 信頼できるaiエージェントは、適切な判断を行うのに十分な知識がないと感じるとき、彼らの知識の限界に注意を払い、人間に相談する必要がある。
我々は,人間がいつ追加情報を要求するか,どのような情報を要求するのに役立つかを決めるための階層的強化学習フレームワークを考案する。
我々のフレームワークは、エージェントがアシスタントと対話してタスクを遂行する際の知識を活用することによって、部分的に観測されたマルコフ決定プロセス(POMDP)を拡張します。
シミュレーションされた人間支援ナビゲーション問題の結果は,本手法で学習したインタラクションポリシによって,タスクを単独で実行した場合に比べて,タスク成功率を最大7倍に向上させる。
インタラクションポリシーは効率的で、タスク実行中に取られたアクションの4分の1だけが情報に対する要求である。
我々は,階層的政策構造による学習のメリットと課題を分析し,今後の作業への方向性を提案する。
関連論文リスト
- Learning to Look: Seeking Information for Decision Making via Policy Factorization [36.87799092971961]
本研究では,情報検索政策と情報受信政策からなる二重政治ソリューションであるDiaMを提案する。
我々は、情報探索行動を必要とする5つの操作タスクにおいて、二重ポリシーソリューションの能力を実証する。
論文 参考訳(メタデータ) (2024-10-24T17:58:11Z) - Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - Ask more, know better: Reinforce-Learned Prompt Questions for Decision
Making with Large Language Models [18.409654309062027]
大規模言語モデル(LLM)は、アクションベースのポリシーと思考の連鎖(CoT)推論を組み合わせる。
人間の介入は、低レベルのコントローラがCoT推論を適切に処理することを保証する基盤機能を開発するためにも必要である。
複雑なタスク解決のための包括的学習フレームワークを提案し,人間の事前知識をアクションポリシーの学習に取り入れた。
論文 参考訳(メタデータ) (2023-10-27T13:19:19Z) - Explaining Agent's Decision-making in a Hierarchical Reinforcement
Learning Scenario [0.6643086804649938]
強化学習(Reinforcement learning)は、行動心理学に基づく機械学習手法である。
本研究では,サブタスクからなる階層環境において,メモリベースで説明可能な強化学習手法を利用する。
論文 参考訳(メタデータ) (2022-12-14T01:18:45Z) - Option-Aware Adversarial Inverse Reinforcement Learning for Robotic
Control [44.77500987121531]
階層的模倣学習 (Hierarchical Imitation Learning, HIL) は, 長期作業における複雑度の高い動作を, 専門家による実証から再現するために提案されている。
逆逆強化学習に基づく新しいHILアルゴリズムを開発した。
また,目的をエンド・ツー・エンドで学習するための変分オートエンコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-05T00:28:26Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Coverage as a Principle for Discovering Transferable Behavior in
Reinforcement Learning [16.12658895065585]
私たちは、表現だけでは挑戦的な領域での効率的な転送には不十分であり、行動を通じて知識を伝達する方法を探ります。
事前訓練された政策の行動は、手作業(探索)の問題解決や、問題(探索)の解決に有用なデータ収集に利用することができる。
論文 参考訳(メタデータ) (2021-02-24T16:51:02Z) - Towards Coordinated Robot Motions: End-to-End Learning of Motion
Policies on Transform Trees [63.31965375413414]
人間による実証から構造化政策を学習し、マルチタスクの課題解決を提案します。
我々の構造化ポリシーは、異なる空間におけるサブタスクポリシーを組み合わせるためのフレームワークであるRMPflowにインスパイアされている。
マルチタスク問題に適したエンドツーエンドの学習目標関数を導き出します。
論文 参考訳(メタデータ) (2020-12-24T22:46:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。