論文の概要: Language Agent Tree Search Unifies Reasoning Acting and Planning in
Language Models
- arxiv url: http://arxiv.org/abs/2310.04406v2
- Date: Tue, 5 Dec 2023 05:25:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 19:19:07.993557
- Title: Language Agent Tree Search Unifies Reasoning Acting and Planning in
Language Models
- Title(参考訳): 言語エージェント木探索による言語モデルにおける推論と計画の統合
- Authors: Andy Zhou, Kai Yan, Michal Shlapentokh-Rothman, Haohan Wang, Yu-Xiong
Wang
- Abstract要約: 大規模言語モデル(LLM)は、様々な意思決定タスクにおいて印象的なパフォーマンスを示している。
LATS(Language Agent Tree Search)は, LLMの計画, 行動, 推論能力の相乗化を目的とした汎用フレームワークである。
- 参考スコア(独自算出の注目度): 33.80537053110821
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) have demonstrated impressive performance
on a range of decision-making tasks, they rely on simple acting processes and
fall short of broad deployment as autonomous agents. We introduce LATS
(Language Agent Tree Search), a general framework that synergizes the
capabilities of LLMs in planning, acting, and reasoning. Drawing inspiration
from Monte Carlo tree search in model-based reinforcement learning, LATS
employs LLMs as agents, value functions, and optimizers, repurposing their
latent strengths for enhanced decision-making. What is crucial in this method
is the use of an environment for external feedback, which offers a more
deliberate and adaptive problem-solving mechanism that moves beyond the
limitations of existing techniques. Our experimental evaluation across diverse
domains, such as programming, HotPotQA, and WebShop, illustrates the
applicability of LATS for both reasoning and acting. In particular, LATS
achieves 94.4% for programming on HumanEval with GPT-4 and an average score of
75.9 for web browsing on WebShop with GPT-3.5, demonstrating the effectiveness
and generality of our method.
- Abstract(参考訳): 大規模言語モデル(LLM)は、さまざまな意思決定タスクにおいて印象的なパフォーマンスを示してきたが、単純な動作プロセスに依存しており、自律的なエージェントとして広くデプロイされていない。
LATS(Language Agent Tree Search)は, LLMの計画, 行動, 推論能力の相乗化を目的とした汎用フレームワークである。
モデルに基づく強化学習においてモンテカルロの木探索からインスピレーションを得たLATSは、LSMをエージェント、価値関数、最適化器として採用し、意思決定の強化のために潜在的強みを再調達した。
この方法において重要なことは、外部からのフィードバックに環境を使用することであり、既存のテクニックの限界を超えて、より意図的で適応的な問題解決メカニズムを提供する。
プログラミングやHotPotQA,WebShopなど,さまざまな分野にわたる実験的な評価は,LATSが推論と行動の両方に適用可能であることを示す。
特に, LATSは, GPT-4を用いたHumanEval上でのプログラミングでは94.4%, GPT-3.5によるWebShop上でのWebブラウジングでは平均75.9のスコアを達成し, 本手法の有効性と汎用性を実証した。
関連論文リスト
- SWE-Search: Enhancing Software Agents with Monte Carlo Tree Search and Iterative Refinement [18.84439000902905]
SWE-Searchは、MCTS(Monte Carlo Tree Search)と自己改善機構を統合し、ソフトウェアエージェントのパフォーマンスを向上させるマルチエージェントフレームワークである。
本研究は,複雑でダイナミックなソフトウェア工学環境において,エージェント推論と計画を強化する自己評価型検索技術の可能性を強調した。
論文 参考訳(メタデータ) (2024-10-26T22:45:56Z) - Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents [44.34340798542]
大きな言語モデル(LLM)は、複雑な推論を必要とする自然言語タスクにおいて顕著な能力を示している。
静的データセットに対する従来の教師付き事前トレーニングは、自律的なエージェント機能を実現するには不十分である。
本稿では,モンテカルロ木探索(MCTS)を自己批判機構と組み合わせ,エージェント間相互作用を反復的に微調整するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T20:52:13Z) - Tree Search for Language Model Agents [69.43007235771383]
対話型Web環境での探索と多段階計画を行うために,LMエージェントの推論時探索アルゴリズムを提案する。
我々のアプローチは、実環境空間内で機能する最優先木探索の一形態である。
現実的なWebタスクにおいて有効性を示すLMエージェントのための最初の木探索アルゴリズムである。
論文 参考訳(メタデータ) (2024-07-01T17:07:55Z) - LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。
以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。
具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文 参考訳(メタデータ) (2024-06-24T03:36:29Z) - KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents [54.09074527006576]
大規模言語モデル(LLM)は複雑な推論タスクにおいて大きな可能性を証明していますが、より高度な課題に取り組むには不十分です。
この不適切さは、主に言語エージェントのアクション知識が組み込まれていないことに起因する。
我々は、明示的な行動知識を取り入れることで、LLMの計画能力を高めるために設計された新しいアプローチであるKnowAgentを紹介する。
論文 参考訳(メタデータ) (2024-03-05T16:39:12Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - FireAct: Toward Language Agent Fine-tuning [63.06306936820456]
我々は、言語エージェントを得るための微調整LMの見落としの方向について論じる。
GPT-4によって生成された500個のエージェント軌道を持つ微調整のLlama2-7Bは、77%のHotpotQA性能向上をもたらす。
本稿では,複数のタスクからのトラジェクトリとメソッドのプロンプトを併用した微調整LMの新たなアプローチであるFireActを提案する。
論文 参考訳(メタデータ) (2023-10-09T17:58:38Z) - ReAct: Synergizing Reasoning and Acting in Language Models [44.746116256516046]
大規模言語モデル (LLM) は, 推論トレースとタスク固有動作の両方を, インターリーブ方式で生成可能であることを示す。
我々はReActという名前のアプローチを多種多様な言語と意思決定タスクに適用する。
ReActは、単純なウィキペディアAPIと対話することで、チェーン・オブ・ソート推論でよく見られる幻覚やエラーの伝播の問題を克服する。
論文 参考訳(メタデータ) (2022-10-06T01:00:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。