論文の概要: Asking Before Action: Gather Information in Embodied Decision Making
with Language Models
- arxiv url: http://arxiv.org/abs/2305.15695v1
- Date: Thu, 25 May 2023 04:05:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 17:31:59.839415
- Title: Asking Before Action: Gather Information in Embodied Decision Making
with Language Models
- Title(参考訳): 行動前:言語モデルを用いた身体決定における情報収集
- Authors: Xiaoyu Chen, Shenao Zhang, Pushi Zhang, Li Zhao, Jianyu Chen
- Abstract要約: 本研究では,Large Language Models (LLMs) が不慣れな環境にデプロイした場合,必要な情報を効率的に収集する上で,課題に直面していることを示す。
Askingtextit Before Action (ABA) は、自然言語を用いて外部ソースを積極的にクエリする手法である。
提案手法を具体化意思決定ベンチマークであるALFWorldで実証的に評価し,本手法がベースラインLLMエージェントを40ドル以上超えることを示した。
- 参考スコア(独自算出の注目度): 9.167993825872102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With strong capabilities of reasoning and a generic understanding of the
world, Large Language Models (LLMs) have shown great potential in building
versatile embodied decision making agents capable of performing diverse tasks.
However, when deployed to unfamiliar environments, we show that LLM agents face
challenges in efficiently gathering necessary information, leading to
suboptimal performance. On the other hand, in unfamiliar scenarios, human
individuals often seek additional information from their peers before taking
action, leveraging external knowledge to avoid unnecessary trial and error.
Building upon this intuition, we propose \textit{Asking Before Action} (ABA), a
method that empowers the agent to proactively query external sources for
pertinent information using natural language during their interactions in the
environment. In this way, the agent is able to enhance its efficiency and
performance by mitigating wasteful steps and circumventing the difficulties
associated with exploration in unfamiliar environments. We empirically evaluate
our method on an embodied decision making benchmark, ALFWorld, and demonstrate
that despite modest modifications in prompts, our method exceeds baseline LLM
agents by more than $40$%. Further experiments on two variants of ALFWorld
illustrate that by imitation learning, ABA effectively retains and reuses
queried and known information in subsequent tasks, mitigating the need for
repetitive inquiries. Both qualitative and quantitative results exhibit
remarkable performance on tasks that previous methods struggle to solve.
- Abstract(参考訳): 推論の強い能力と世界の一般的な理解により、Large Language Models (LLM) は多様なタスクを実行できる多種多様な具体的意思決定エージェントを構築する大きな可能性を示している。
しかし、不慣れな環境に展開すると、LLMエージェントは必要な情報を効率的に収集する上で困難に直面し、最適以下の性能をもたらす。
一方、なじみの無いシナリオでは、人間の個人は行動を起こす前に仲間から追加情報を求め、不必要な試行やエラーを避けるために外部知識を活用する。
この直観に基づいて、エージェントが環境における対話中に自然言語を用いて外部の情報源に積極的に問い合わせることのできる方法である \textit{asking before action} (aba)を提案する。
このようにして、無駄なステップを緩和し、不慣れな環境での探索に伴う困難を回避することにより、効率と性能を向上させることができる。
我々は,提案手法を具体化意思決定ベンチマークであるALFWorld上で実証的に評価し,提案手法がベースラインLLMエージェントを40ドル以上上回ることを示す。
ALFWorldの2つの変種に関するさらなる実験は、模倣学習によってABAがクエリや既知の情報を後続のタスクで効果的に保持し再利用し、反復的な問い合わせの必要性を軽減していることを示している。
定性的かつ定量的な結果は、以前の方法が解決に苦慮したタスクに顕著なパフォーマンスを示す。
関連論文リスト
- A Survey On Enhancing Reinforcement Learning in Complex Environments: Insights from Human and LLM Feedback [1.0359008237358598]
本稿では、まず、人間やLSMの補助に焦点をあて、これらの実体が最適な行動の促進と学習の迅速化のためにRLエージェントと協調する方法について検討し、また、大きな観測空間によって特徴づけられる環境の複雑さに対処する研究論文を探索する。
論文 参考訳(メタデータ) (2024-11-20T15:52:03Z) - Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。
Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。
中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文 参考訳(メタデータ) (2024-11-09T15:12:28Z) - WESE: Weak Exploration to Strong Exploitation for LLM Agents [95.6720931773781]
本稿では,オープンワールド対話型タスクの解法において,LLMエージェントの強化を目的としたWeak Exploration to Strong Exploitation (WESE)を提案する。
WESEは、探究と搾取のプロセスを分離し、費用対効果の弱いエージェントを用いて世界的知識の探索を行う。
次に、獲得した知識を格納し、タスク関連知識を抽出する知識グラフベースの戦略を導入する。
論文 参考訳(メタデータ) (2024-04-11T03:31:54Z) - Facial Affective Behavior Analysis with Instruction Tuning [58.332959295770614]
顔の感情行動分析(FABA)は、画像から人間の精神状態を理解するために重要である。
従来のアプローチでは、主に個別の感情カテゴリーを識別するためのモデルをデプロイし、複雑な顔の振る舞いに対する細かい粒度と推論能力が欠如している。
本稿では,2つのFABAタスクに対する指示追従データセット,感情と行動の単位認識,および認識能力と生成能力の両方を考慮したベンチマークFABA-Benchを紹介する。
また,顔構造知識と低ランク適応モジュールを事前学習MLLMに導入した。
論文 参考訳(メタデータ) (2024-04-07T19:23:28Z) - KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents [54.09074527006576]
大規模言語モデル(LLM)は複雑な推論タスクにおいて大きな可能性を証明していますが、より高度な課題に取り組むには不十分です。
この不適切さは、主に言語エージェントのアクション知識が組み込まれていないことに起因する。
我々は、明示的な行動知識を取り入れることで、LLMの計画能力を高めるために設計された新しいアプローチであるKnowAgentを紹介する。
論文 参考訳(メタデータ) (2024-03-05T16:39:12Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - ExpeL: LLM Agents Are Experiential Learners [60.54312035818746]
実験学習エージェント(ExpeL)を導入し、パラメトリック更新を必要とせずにエージェント体験から学習できるようにする。
我々のエージェントは、経験を自律的に収集し、学習課題の集合から自然言語を用いて知識を抽出する。
推論において、エージェントは抽出された洞察と過去の経験をリコールし、情報的決定を行う。
論文 参考訳(メタデータ) (2023-08-20T03:03:34Z) - Improving Knowledge Extraction from LLMs for Task Learning through Agent
Analysis [4.055489363682198]
大規模言語モデル(LLM)は、タスク学習の知識源として大きな可能性を秘めている。
プロンプト工学は、LLMから知識を引き出すのに有効であることが示されているが、同時に、新しいタスクを具現化したエージェント学習のための、適切な、状況に根ざした知識を得るには不十分である。
本稿では,認知エージェントアプローチであるSTARSについて述べる。これは,迅速なエンジニアリングを拡張し,その制限を緩和し,エージェントがネイティブ言語能力,具体化,環境,ユーザ嗜好に適合する新たなタスク知識を取得できるようにする。
論文 参考訳(メタデータ) (2023-06-11T20:50:14Z) - Learning by Asking for Embodied Visual Navigation and Task Completion [20.0182240268864]
本稿では,タスク完了のための追加情報を動的に取得するために,いつ,どの質問をするかを学習するELBA(Embodied Learning-By-Asking)モデルを提案する。
実験結果から,ELBAは質問応答能力のないベースラインモデルに比べ,タスク性能の向上を図っている。
論文 参考訳(メタデータ) (2023-02-09T18:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。