論文の概要: Asking Before Action: Gather Information in Embodied Decision Making
with Language Models
- arxiv url: http://arxiv.org/abs/2305.15695v1
- Date: Thu, 25 May 2023 04:05:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 17:31:59.839415
- Title: Asking Before Action: Gather Information in Embodied Decision Making
with Language Models
- Title(参考訳): 行動前:言語モデルを用いた身体決定における情報収集
- Authors: Xiaoyu Chen, Shenao Zhang, Pushi Zhang, Li Zhao, Jianyu Chen
- Abstract要約: 本研究では,Large Language Models (LLMs) が不慣れな環境にデプロイした場合,必要な情報を効率的に収集する上で,課題に直面していることを示す。
Askingtextit Before Action (ABA) は、自然言語を用いて外部ソースを積極的にクエリする手法である。
提案手法を具体化意思決定ベンチマークであるALFWorldで実証的に評価し,本手法がベースラインLLMエージェントを40ドル以上超えることを示した。
- 参考スコア(独自算出の注目度): 9.167993825872102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With strong capabilities of reasoning and a generic understanding of the
world, Large Language Models (LLMs) have shown great potential in building
versatile embodied decision making agents capable of performing diverse tasks.
However, when deployed to unfamiliar environments, we show that LLM agents face
challenges in efficiently gathering necessary information, leading to
suboptimal performance. On the other hand, in unfamiliar scenarios, human
individuals often seek additional information from their peers before taking
action, leveraging external knowledge to avoid unnecessary trial and error.
Building upon this intuition, we propose \textit{Asking Before Action} (ABA), a
method that empowers the agent to proactively query external sources for
pertinent information using natural language during their interactions in the
environment. In this way, the agent is able to enhance its efficiency and
performance by mitigating wasteful steps and circumventing the difficulties
associated with exploration in unfamiliar environments. We empirically evaluate
our method on an embodied decision making benchmark, ALFWorld, and demonstrate
that despite modest modifications in prompts, our method exceeds baseline LLM
agents by more than $40$%. Further experiments on two variants of ALFWorld
illustrate that by imitation learning, ABA effectively retains and reuses
queried and known information in subsequent tasks, mitigating the need for
repetitive inquiries. Both qualitative and quantitative results exhibit
remarkable performance on tasks that previous methods struggle to solve.
- Abstract(参考訳): 推論の強い能力と世界の一般的な理解により、Large Language Models (LLM) は多様なタスクを実行できる多種多様な具体的意思決定エージェントを構築する大きな可能性を示している。
しかし、不慣れな環境に展開すると、LLMエージェントは必要な情報を効率的に収集する上で困難に直面し、最適以下の性能をもたらす。
一方、なじみの無いシナリオでは、人間の個人は行動を起こす前に仲間から追加情報を求め、不必要な試行やエラーを避けるために外部知識を活用する。
この直観に基づいて、エージェントが環境における対話中に自然言語を用いて外部の情報源に積極的に問い合わせることのできる方法である \textit{asking before action} (aba)を提案する。
このようにして、無駄なステップを緩和し、不慣れな環境での探索に伴う困難を回避することにより、効率と性能を向上させることができる。
我々は,提案手法を具体化意思決定ベンチマークであるALFWorld上で実証的に評価し,提案手法がベースラインLLMエージェントを40ドル以上上回ることを示す。
ALFWorldの2つの変種に関するさらなる実験は、模倣学習によってABAがクエリや既知の情報を後続のタスクで効果的に保持し再利用し、反復的な問い合わせの必要性を軽減していることを示している。
定性的かつ定量的な結果は、以前の方法が解決に苦慮したタスクに顕著なパフォーマンスを示す。
関連論文リスト
- Reflexion: Language Agents with Verbal Reinforcement Learning [22.945382816436005]
リフレクション(Reflexion)は、ウェイトを更新するのではなく、言語フィードバックによって言語エージェントを強化する新しいフレームワークである。
様々なタイプ(スカラー値または自由形式言語)とフィードバック信号のソース(外部または内部シミュレート)を組み込むのに十分な柔軟性がある。
例えば、ReflexionはHumanEvalのコーディングベンチマークで91%のパス@1精度を達成した。
論文 参考訳(メタデータ) (2023-03-20T18:08:50Z) - When Not to Trust Language Models: Investigating Effectiveness and
Limitations of Parametric and Non-Parametric Memories [58.342130509118704]
本稿では,事実知識を記憶する上でのLMの強みと限界を理解することを目的とする。
LMは、あまり一般的でない事実知識に苦しむが、スケーリングは、事実知識のテールでの記憶を確実に改善することができない。
我々は、必要時にのみ非パラメトリックメモリを検索する、強力かつ効率的な検索拡張LMの簡易かつ効果的な手法を考案する。
論文 参考訳(メタデータ) (2022-12-20T18:30:15Z) - ReAct: Synergizing Reasoning and Acting in Language Models [44.746116256516046]
大規模言語モデル (LLM) は, 推論トレースとタスク固有動作の両方を, インターリーブ方式で生成可能であることを示す。
我々はReActという名前のアプローチを多種多様な言語と意思決定タスクに適用する。
ReActは、単純なウィキペディアAPIと対話することで、チェーン・オブ・ソート推論でよく見られる幻覚やエラーの伝播の問題を克服する。
論文 参考訳(メタデータ) (2022-10-06T01:00:32Z) - LM-CORE: Language Models with Contextually Relevant External Knowledge [13.451001884972033]
モデルパラメータに大量の知識を格納することは、絶え間なく増加する知識とリソースの要求を考えると、準最適である、と我々は主張する。
LM-CORE - これを実現するための一般的なフレームワークで、外部の知識ソースから言語モデルのトレーニングをテキストデカップリングすることができる。
実験結果から, LM-COREは知識探索タスクにおいて, 最先端の知識強化言語モデルよりも大きく, 堅牢な性能を実現していることがわかった。
論文 参考訳(メタデータ) (2022-08-12T18:59:37Z) - Denoised MDPs: Learning World Models Better Than the World Itself [94.74665254213588]
本研究は,野生の情報を制御可能性と報酬との関係に基づく4つのタイプに分類し,制御性および報酬関連性の両方に有用な情報を定式化する。
DeepMind Control Suite と RoboDesk の変種に関する実験では、生の観測のみを用いた場合よりも、認知された世界モデルの優れた性能が示されている。
論文 参考訳(メタデータ) (2022-06-30T17:59:49Z) - Perceiving the World: Question-guided Reinforcement Learning for
Text-based Games [64.11746320061965]
本稿では,環境に関する質問に答えることで,タスクやプーンアクションを自動的に分解する世界認識モジュールを提案する。
次に、強化学習から言語学習を分離する2段階学習フレームワークを提案し、サンプル効率をさらに向上させる。
論文 参考訳(メタデータ) (2022-03-20T04:23:57Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Feature-Based Interpretable Reinforcement Learning based on
State-Transition Models [3.883460584034766]
現実世界でのAIモデルの運用に関する懸念が高まり、AIモデルの決定を人間に説明することへの関心が高まっています。
強化学習におけるリスクに関する局所的な説明方法を提案する。
論文 参考訳(メタデータ) (2021-05-14T23:43:11Z) - Knowledge-driven Data Construction for Zero-shot Evaluation in
Commonsense Question Answering [80.60605604261416]
本稿では,共通認識課題にまたがるゼロショット質問応答のための新しいニューラルシンボリック・フレームワークを提案する。
言語モデル、トレーニング体制、知識ソース、データ生成戦略のセットを変えて、タスク間の影響を測定します。
個別の知識グラフは特定のタスクに適しているが、グローバルな知識グラフはさまざまなタスクに対して一貫した利得をもたらす。
論文 参考訳(メタデータ) (2020-11-07T22:52:21Z) - Active Feature Acquisition with Generative Surrogate Models [11.655069211977464]
本研究では,アクティブ機能獲得(AFA)を行うモデルについて検討し,未観測機能に対する環境問合せを行う。
我々の研究は、AFA問題を生成的モデリングタスクとして根底にあるマルコフ決定プロセス(MDP)を再構築する。
本稿では,入力特徴間の依存関係を捕捉し,取得から得られる潜在的な情報を評価する生成代理モデル(GSM)の学習を提案する。
論文 参考訳(メタデータ) (2020-10-06T02:10:06Z) - Soft Expert Reward Learning for Vision-and-Language Navigation [94.86954695912125]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、目に見えない環境で特定の場所を見つける必要がある。
本稿では,VLNタスクの工学的設計と一般化問題を克服するために,ソフトエキスパート・リワード・ラーニング(SERL)モデルを導入する。
論文 参考訳(メタデータ) (2020-07-21T14:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。