論文の概要: BAGEL: Bootstrapping Agents by Guiding Exploration with Language
- arxiv url: http://arxiv.org/abs/2403.08140v1
- Date: Tue, 12 Mar 2024 23:59:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 16:22:47.668841
- Title: BAGEL: Bootstrapping Agents by Guiding Exploration with Language
- Title(参考訳): BAGEL: 言語による探索誘導によるブートストラップエージェント
- Authors: Shikhar Murty, Christopher Manning, Peter Shaw, Mandar Joshi, Kenton
Lee
- Abstract要約: この研究は、人間の監督なしに言語モデル(LM)エージェントをブートストラップする方法であるBAGELを提示する。
BAGELのデモを使用して、ゼロショットLMエージェントをテスト時に、検索したデモよりもコンテキスト内学習により適応する。
ToolQAとMiniWob++では2-13%以上の絶対値の改善が見られ、最大で13倍のエラーが発生しています。
- 参考スコア(独自算出の注目度): 20.225095627046535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Following natural language instructions by executing actions in digital
environments (e.g. web-browsers and REST APIs) is a challenging task for
language model (LM) agents. Unfortunately, LM agents often fail to generalize
to new environments without human demonstrations. This work presents BAGEL, a
method for bootstrapping LM agents without human supervision. BAGEL converts a
seed set of randomly explored trajectories or synthetic instructions, into
demonstrations, via round-trips between two noisy LM components: an LM labeler
which converts a trajectory into a synthetic instruction, and a zero-shot LM
agent which maps the synthetic instruction into a refined trajectory. By
performing these round-trips iteratively, BAGEL quickly converts the initial
distribution of trajectories towards those that are well-described by natural
language. We use BAGEL demonstrations to adapt a zero shot LM agent at test
time via in-context learning over retrieved demonstrations, and find
improvements of over 2-13% absolute on ToolQA and MiniWob++, with up to 13x
reduction in execution failures.
- Abstract(参考訳): デジタル環境(WebブラウザやREST APIなど)でのアクションの実行による自然言語命令に従うことは、言語モデル(LM)エージェントにとって難しいタスクです。
残念ながら、LMエージェントは人間のデモンストレーションなしで新しい環境への一般化に失敗することが多い。
この研究は、人間の監督なしにLMエージェントをブートストラップする方法であるBAGELを提示する。
BAGELは、ランダムに探索された軌道または合成指示のシードセットを、2つのノイズのあるLM成分(軌道を合成命令に変換するLMラベル装置と、合成命令を洗練された軌道にマッピングするゼロショットLMエージェント)の間のラウンドトリップでデモに変換する。
これらのラウンドトリップを反復的に実行することにより、BAGELはトランジェクトリーの初期分布を自然言語でよく記述されたものに変換する。
BAGELのデモでは、検索したデモよりもコンテキスト内学習を通じてゼロショットLMエージェントをテスト時に適用し、ToolQAやMiniWob++では2-13%以上の絶対値の改善を実現し、実行障害の最大13倍の削減を実現しています。
関連論文リスト
- TasTe: Teaching Large Language Models to Translate through Self-Reflection [82.83958470745381]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。
本稿では,自己回帰を通した翻訳を行うTasTeフレームワークを提案する。
WMT22ベンチマークにおける4つの言語方向の評価結果から,既存の手法と比較して,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-12T17:21:21Z) - Frugal LMs Trained to Invoke Symbolic Solvers Achieve
Parameter-Efficient Arithmetic Reasoning [36.8749786658624]
大規模言語モデル(LLM)は、スケールで発生した振る舞いとしてゼロショットの数学的推論能力を示す。
算術語問題を正規化テーマ解決タスクとして提案した場合,小さいLMでは合理的な算術的推論が可能であることを示す。
論文 参考訳(メタデータ) (2023-12-09T13:20:49Z) - FireAct: Toward Language Agent Fine-tuning [63.06306936820456]
我々は、言語エージェントを得るための微調整LMの見落としの方向について論じる。
GPT-4によって生成された500個のエージェント軌道を持つ微調整のLlama2-7Bは、77%のHotpotQA性能向上をもたらす。
本稿では,複数のタスクからのトラジェクトリとメソッドのプロンプトを併用した微調整LMの新たなアプローチであるFireActを提案する。
論文 参考訳(メタデータ) (2023-10-09T17:58:38Z) - LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。
私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。
LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z) - Guiding Pretraining in Reinforcement Learning with Large Language Models [133.32146904055233]
テキストコーパスからの背景知識を用いて探索を図形化する手法について述べる。
このメソッドはELLMと呼ばれ、言語モデルによって提案される目標を達成するエージェントに報酬を与える。
大規模な言語モデルの事前訓練を活用することで、ELLMはエージェントをループに人間を必要とせず、人間に有意義で、もっとも有用な行動へと導く。
論文 参考訳(メタデータ) (2023-02-13T21:16:03Z) - Demonstrate-Search-Predict: Composing retrieval and language models for
knowledge-intensive NLP [77.817293104436]
本稿では,LMとRMの間の洗練されたパイプラインにおいて,自然言語テキストを渡すことに依存するフレームワークを提案する。
我々は、オープンドメイン、マルチホップ、会話設定で質問に答えるための新しいDSPプログラムを作成した。
論文 参考訳(メタデータ) (2022-12-28T18:52:44Z) - Can Large Language Models Truly Understand Prompts? A Case Study with
Negated Prompts [19.43042432631113]
これまでの研究では、言語モデル(LM)のサイズと、異なる下流のNLPタスクにおけるゼロショットのパフォーマンスとの間には、スケーリングの法則が存在することが示されている。
本研究では,この現象が負のプロンプトでタスク上で大きなLMを評価する際には有効ではなく,逆のスケーリング法則を示す。
論文 参考訳(メタデータ) (2022-09-26T14:05:10Z) - Language Models as Zero-Shot Planners: Extracting Actionable Knowledge
for Embodied Agents [111.33545170562337]
自然言語で表現された高レベルなタスクを、選択された実行可能なステップのセットに基底付ける可能性について検討する。
事前学習したLMが十分に大きく、適切に誘導された場合、ハイレベルなタスクを効果的に低レベルな計画に分解できることがわかった。
本稿では,既存の実演の条件を規定し,計画が許容可能な行動に意味的に変換される手順を提案する。
論文 参考訳(メタデータ) (2022-01-18T18:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。