論文の概要: Ask4Help: Learning to Leverage an Expert for Embodied Tasks
- arxiv url: http://arxiv.org/abs/2211.09960v1
- Date: Fri, 18 Nov 2022 00:38:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 13:58:22.839857
- Title: Ask4Help: Learning to Leverage an Expert for Embodied Tasks
- Title(参考訳): Ask4Help: 身体的タスクのエキスパートを活用することを学ぶ
- Authors: Kunal Pratap Singh, Luca Weihs, Alvaro Herrasti, Jonghyun Choi,
Aniruddha Kemhavi, Roozbeh Mottaghi
- Abstract要約: 本稿では,Ask4Helpポリシーを提案する。
Ask4Helpポリシは、元のエージェントのパラメータを変更することなく、効率的にトレーニングできる。
我々はAsk4Helpをオブジェクトゴールナビゲーションと部屋の配置という2つの異なるタスクで評価する。
- 参考スコア(独自算出の注目度): 25.593942971821154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied AI agents continue to become more capable every year with the advent
of new models, environments, and benchmarks, but are still far away from being
performant and reliable enough to be deployed in real, user-facing,
applications. In this paper, we ask: can we bridge this gap by enabling agents
to ask for assistance from an expert such as a human being? To this end, we
propose the Ask4Help policy that augments agents with the ability to request,
and then use expert assistance. Ask4Help policies can be efficiently trained
without modifying the original agent's parameters and learn a desirable
trade-off between task performance and the amount of requested help, thereby
reducing the cost of querying the expert. We evaluate Ask4Help on two different
tasks -- object goal navigation and room rearrangement and see substantial
improvements in performance using minimal help. On object navigation, an agent
that achieves a $52\%$ success rate is raised to $86\%$ with $13\%$ help and
for rearrangement, the state-of-the-art model with a $7\%$ success rate is
dramatically improved to $90.4\%$ using $39\%$ help. Human trials with Ask4Help
demonstrate the efficacy of our approach in practical scenarios. We release the
code for Ask4Help here: https://github.com/allenai/ask4help.
- Abstract(参考訳): Embodied AIエージェントは、新しいモデル、環境、ベンチマークの出現により、毎年より有能になるが、実際のユーザ対応アプリケーションにデプロイできるパフォーマンスと信頼性は、まだ程遠い。
エージェントが人間のような専門家に助けを求めることができるようにすることで、このギャップを埋めることができるか?
そこで我々は,エージェントの要求能力を強化し,専門家支援を行うask4helpポリシーを提案する。
ask4helpポリシーは、元のエージェントのパラメータを変更しずに効率的にトレーニングでき、タスクのパフォーマンスと要求されたヘルプの量の間の望ましいトレードオフを学習できる。
我々は、Ask4Helpをオブジェクトゴールナビゲーションとルームアレンジメントという2つの異なるタスクで評価し、最小限のヘルプを用いてパフォーマンスを大幅に改善する。
オブジェクトナビゲーションでは、$22\%$成功率を達成したエージェントは$13\%$ヘルプで$6\%、再配置のために$7\%$成功率の最先端モデルが$39\%$ヘルプを使用して$90.4\%$に劇的に改善される。
ask4helpによる人間実験は、実際のシナリオにおける我々のアプローチの有効性を実証する。
私たちはAsk4Helpのコードをここでリリースします。
関連論文リスト
- SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。
本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。
我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文 参考訳(メタデータ) (2024-09-11T17:37:48Z) - Learning Task Decomposition to Assist Humans in Competitive Programming [90.4846613669734]
タスク分解学習のための新しい目的,いわゆる値(AssistV)を導入する。
我々は、さまざまな分解されたソリューションに対して、人間の修理経験のデータセットを収集する。
人間の177時間以内の研究では、非専門家が33.3%の問題を解き、それらを3.3倍スピードアップさせ、無支援の専門家にマッチさせる権限を与える。
論文 参考訳(メタデータ) (2024-06-07T03:27:51Z) - Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。
現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文 参考訳(メタデータ) (2024-03-29T03:48:12Z) - Learning to Break: Knowledge-Enhanced Reasoning in Multi-Agent Debate System [16.830182915504555]
マルチエージェント討論システム(MAD)は、真理を追求する人間の議論の過程を模倣する。
様々なエージェントが、限られた知識の背景から、適切に、高度に一貫した認知をさせることは困難である。
本稿では,Underline Knowledge-underlineEnhanced frameworkを用いたUnderlineMulti-underlineAgent UnderlineDebateを提案する。
論文 参考訳(メタデータ) (2023-12-08T06:22:12Z) - Decision Making for Human-in-the-loop Robotic Agents via
Uncertainty-Aware Reinforcement Learning [13.184897303302971]
ヒューマン・イン・ザ・ループ(Human-in-the-Loop)パラダイムでは、ロボットエージェントはタスクの解決において主に自律的に行動するが、必要に応じて外部の専門家から助けを求めることができる。
本稿では,この課題に対する強化学習に基づくアプローチを提案する。そこでは,半自律エージェントが,タスクの最終的な成功に対する信頼度が低い場合に,外部支援を求める。
本手法は,訓練時に専門家にアクセスできないにも関わらず,実行時に限られた専門家コールの予算を効果的に活用できることを示す。
論文 参考訳(メタデータ) (2023-03-12T17:22:54Z) - Zero-Shot Assistance in Novel Decision Problems [14.376001248562797]
我々は、エージェント(しばしば人間)が新しいシーケンシャルな意思決定問題を解決するのに役立つアシスタントを作成するという問題を考察する。
エージェントを現在のアプローチとして自動化し、代行する代わりに、アシスタントにアドバイザリの役割を与え、エージェントを主要な意思決定者としてループに留める。
論文 参考訳(メタデータ) (2022-02-15T12:45:42Z) - Learning When and What to Ask: a Hierarchical Reinforcement Learning
Framework [17.017688226277834]
我々は、人間から追加情報を要求するタイミングを決定するための階層的な強化学習フレームワークを定式化した。
シミュレーションによるナビゲーション問題の結果から,本フレームワークの有効性が示された。
論文 参考訳(メタデータ) (2021-10-14T01:30:36Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Exploration and Incentives in Reinforcement Learning [107.42240386544633]
各エージェントが同一(ただし未知)のMDPに直面する複雑な探索問題を考察する。
エージェントはポリシーの選択を制御するが、アルゴリズムは推奨事項のみを発行できる。
MDPのすべての到達可能な状態を探索するアルゴリズムを設計します。
論文 参考訳(メタデータ) (2021-02-28T00:15:53Z) - Reinforcement Learning with Efficient Active Feature Acquisition [59.91808801541007]
実生活では、情報取得は患者の医療検査に該当する可能性がある。
本稿では,アクティブな特徴獲得ポリシーを学習するモデルに基づく強化学習フレームワークを提案する。
この成功の鍵は、部分的に観察された状態から高品質な表現を学ぶ新しい逐次変分自動エンコーダである。
論文 参考訳(メタデータ) (2020-11-02T08:46:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。