論文の概要: Reason for Future, Act for Now: A Principled Framework for Autonomous
LLM Agents with Provable Sample Efficiency
- arxiv url: http://arxiv.org/abs/2309.17382v2
- Date: Wed, 11 Oct 2023 06:18:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 02:48:36.687460
- Title: Reason for Future, Act for Now: A Principled Framework for Autonomous
LLM Agents with Provable Sample Efficiency
- Title(参考訳): 将来と現在のための法律: 持続的サンプル効率を有する自律型LLMエージェントの原理的枠組み
- Authors: Zhihan Liu, Hao Hu, Shenao Zhang, Hongyi Guo, Shuqi Ke, Boyi Liu,
Zhaoran Wang
- Abstract要約: 本稿では,推論と行動のオーケストレーションを行うための,証明可能な後悔の保証を備えた原則的枠組みを提案する。
具体的には、メモリバッファから学習する推論のためのプロンプトテンプレートを設計し、長い水平線上で将来の軌道を計画する。
各ステップにおいて、LLMエージェントは計画された軌跡の初期動作("act for now")を受け取り、収集したフィードバックをメモリバッファに格納し、推論ルーチンを再起動して、将来の軌跡を新しい状態から再設計する。
- 参考スコア(独自算出の注目度): 53.8779374188643
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) demonstrate impressive reasoning abilities, but
translating reasoning into actions in the real world remains challenging. In
particular, it remains unclear how to complete a given task provably within a
minimum number of interactions with the external environment, e.g., through an
internal mechanism of reasoning. To this end, we propose a principled framework
with provable regret guarantees to orchestrate reasoning and acting, which we
call "reason for future, act for now" (\texttt{RAFA}). Specifically, we design
a prompt template for reasoning that learns from the memory buffer and plans a
future trajectory over a long horizon ("reason for future"). At each step, the
LLM agent takes the initial action of the planned trajectory ("act for now"),
stores the collected feedback in the memory buffer, and reinvokes the reasoning
routine to replan the future trajectory from the new state.
The key idea is to cast reasoning in LLMs as learning and planning in
Bayesian adaptive Markov decision processes (MDPs). Correspondingly, we prompt
LLMs to form an updated posterior of the unknown environment from the memory
buffer (learning) and generate an optimal trajectory for multiple future steps
that maximizes a value function (planning). The learning and planning
subroutines are performed in an "in-context" manner to emulate the actor-critic
update for MDPs. Our theoretical analysis proves that the novel combination of
long-term reasoning and short-term acting achieves a $\sqrt{T}$ regret. In
particular, the regret bound highlights an intriguing interplay between the
prior knowledge obtained through pretraining and the uncertainty reduction
achieved by reasoning and acting. Our empirical validation shows that it
outperforms various existing frameworks and achieves nearly perfect scores on a
few benchmarks.
- Abstract(参考訳): 大規模言語モデル(LLM)は印象的な推論能力を示しているが、現実の世界での行動に推論を翻訳することは難しい。
特に、内部的な推論機構を通じて、外部環境との最小数の相互作用の中で、与えられたタスクを確実に完了させる方法は不明である。
そこで本研究では,理性や行動の体系化を保証できる原則的枠組みを提案し,それを「今後,現在,行動」と呼ぶ(\texttt{rafa})。
具体的には、メモリバッファから学習する推論のためのプロンプトテンプレートを設計し、長い地平線を越えて将来の軌道を計画します("reason for future")。
各ステップにおいて、llmエージェントは、計画された軌道の初期動作("act for now")を受け取り、収集されたフィードバックをメモリバッファに格納し、新しい状態から将来の軌道を再計画する推論ルーチンを再起動する。
鍵となる考え方は、LLMにおける推論をベイズ適応マルコフ決定プロセス(MDP)の学習と計画として使うことである。
それに対応して、LLMは、メモリバッファ(学習)から未知環境の更新後部を形成するように促し、値関数(計画)を最大化する複数の将来のステップに対して最適な軌道を生成する。
学習と計画のサブルーチンは、MDPのアクター批判更新をエミュレートする"コンテキスト内で"実行される。
我々の理論的分析により, 長期的推論と短期的行為の新たな組み合わせは$\sqrt{t}$ regretが得られることが証明された。
特に、後悔のバウンドは、事前訓練によって得られた事前知識と、推論と演技によって達成された不確実性低減との興味深い相互作用を強調する。
私たちの実証検証では、既存のフレームワークよりも優れており、いくつかのベンチマークでほぼ完璧なスコアが得られています。
関連論文リスト
- Latent Plan Transformer: Planning as Latent Variable Inference [55.42812795441545]
本稿では,Transformerベースの軌道生成器と最終帰路を接続する潜在空間を利用した新しいモデルであるLatent Plan Transformerを紹介する。
テスト期間中、潜在変数はポリシー実行前の期待した戻り値から推論され、計画のアイデアを推論として実現します。
実験により, 最適軌道は, 微妙なクレジット代入, 軌道縫合, 環境問題への適応から, 改善された意思決定を発見できることを示した。
論文 参考訳(メタデータ) (2024-02-07T08:18:09Z) - Learning Planning-based Reasoning by Trajectories Collection and Process
Reward Synthesizing [66.50096740792928]
収集された軌道上での直接選好最適化(DPO)を通して計画に基づく推論を学習するフレームワークを提案する。
論理的推論ベンチマークの挑戦的な結果から,学習フレームワークの有効性が示された。
論文 参考訳(メタデータ) (2024-02-01T15:18:33Z) - Are LLMs Rigorous Logical Reasoner? Empowering Natural Language Proof
Generation with Contrastive Stepwise Decoding [11.385103498440932]
本稿では,論理的推論のためのモデルの能力を高めるために,負の推論経路を用いることにより,ステップワイズな証明生成に対照的な復号を導入する。
EntailmentBankの実験は、言語モデルの計画能力を実証する上で、我々の手法の成功を裏付けている。
論文 参考訳(メタデータ) (2023-11-12T05:12:49Z) - From Indeterminacy to Determinacy: Augmenting Logical Reasoning
Capabilities with Large Language Models [79.88472218252224]
DetermLRは、推論プロセスを非決定的な前提から非決定的な前提へと転換する過程として定式化する、新しい推論フレームワークである。
DetermLRは、訪問する状態を少なくし、論理的推論タスクに対処する上で、その優れた効率性と有効性を強調しながら、より良い推論性能を達成することができる。
論文 参考訳(メタデータ) (2023-10-28T10:05:51Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical
Reasoning Capabilities of Language Models [58.76688462256284]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
一つのタスクトレーニング,複数タスクトレーニング,および思考知識の蒸留微調整手法の連鎖について検討し,異なる論理的推論カテゴリにおけるモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Furthest Reasoning with Plan Assessment: Stable Reasoning Path with
Retrieval-Augmented Large Language Models [10.04323204974924]
MHQA(Multi-Hop Question Answering)は広く議論されているカテゴリである。
既存の手法では、推論パスと計画を生成するためにLarge Language Models (LLM) を採用している。
We propose a novel pipeline for MHQA called Furthest-Reasoning-with-Plan-Assessment (FuRePA)。
論文 参考訳(メタデータ) (2023-09-22T10:15:13Z) - Remembering for the Right Reasons: Explanations Reduce Catastrophic
Forgetting [100.75479161884935]
我々は、RRR(Remembering for the Right Reasons)と呼ばれる新しいトレーニングパラダイムを提案する。
RRRは、各例の視覚モデル説明をバッファに格納し、モデルが予測に「正しい理由」を持つことを保証する。
メモリや正規化ベースのアプローチでRRRを容易に追加できることを示し、その結果、忘れを少なくする。
論文 参考訳(メタデータ) (2020-10-04T10:05:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。