Fugu-MT 論文翻訳(概要): Reason for Future, Act for Now: A Principled Framework for Autonomous LLM Agents with Provable Sample Efficiency

論文の概要: Reason for Future, Act for Now: A Principled Framework for Autonomous LLM Agents with Provable Sample Efficiency

arxiv url: http://arxiv.org/abs/2309.17382v2
Date: Wed, 11 Oct 2023 06:18:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-13 02:48:36.687460
Title: Reason for Future, Act for Now: A Principled Framework for Autonomous LLM Agents with Provable Sample Efficiency
Title（参考訳）: 将来と現在のための法律: 持続的サンプル効率を有する自律型LLMエージェントの原理的枠組み
Authors: Zhihan Liu, Hao Hu, Shenao Zhang, Hongyi Guo, Shuqi Ke, Boyi Liu, Zhaoran Wang
Abstract要約: 本稿では,推論と行動のオーケストレーションを行うための,証明可能な後悔の保証を備えた原則的枠組みを提案する。具体的には、メモリバッファから学習する推論のためのプロンプトテンプレートを設計し、長い水平線上で将来の軌道を計画する。各ステップにおいて、LLMエージェントは計画された軌跡の初期動作("act for now")を受け取り、収集したフィードバックをメモリバッファに格納し、推論ルーチンを再起動して、将来の軌跡を新しい状態から再設計する。
参考スコア（独自算出の注目度）: 53.8779374188643
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) demonstrate impressive reasoning abilities, but translating reasoning into actions in the real world remains challenging. In particular, it remains unclear how to complete a given task provably within a minimum number of interactions with the external environment, e.g., through an internal mechanism of reasoning. To this end, we propose a principled framework with provable regret guarantees to orchestrate reasoning and acting, which we call "reason for future, act for now" (\texttt{RAFA}). Specifically, we design a prompt template for reasoning that learns from the memory buffer and plans a future trajectory over a long horizon ("reason for future"). At each step, the LLM agent takes the initial action of the planned trajectory ("act for now"), stores the collected feedback in the memory buffer, and reinvokes the reasoning routine to replan the future trajectory from the new state. The key idea is to cast reasoning in LLMs as learning and planning in Bayesian adaptive Markov decision processes (MDPs). Correspondingly, we prompt LLMs to form an updated posterior of the unknown environment from the memory buffer (learning) and generate an optimal trajectory for multiple future steps that maximizes a value function (planning). The learning and planning subroutines are performed in an "in-context" manner to emulate the actor-critic update for MDPs. Our theoretical analysis proves that the novel combination of long-term reasoning and short-term acting achieves a $\sqrt{T}$ regret. In particular, the regret bound highlights an intriguing interplay between the prior knowledge obtained through pretraining and the uncertainty reduction achieved by reasoning and acting. Our empirical validation shows that it outperforms various existing frameworks and achieves nearly perfect scores on a few benchmarks.
Abstract（参考訳）: 大規模言語モデル(LLM)は印象的な推論能力を示しているが、現実の世界での行動に推論を翻訳することは難しい。特に、内部的な推論機構を通じて、外部環境との最小数の相互作用の中で、与えられたタスクを確実に完了させる方法は不明である。そこで本研究では,理性や行動の体系化を保証できる原則的枠組みを提案し,それを「今後,現在,行動」と呼ぶ(\texttt{rafa})。具体的には、メモリバッファから学習する推論のためのプロンプトテンプレートを設計し、長い地平線を越えて将来の軌道を計画します("reason for future")。各ステップにおいて、llmエージェントは、計画された軌道の初期動作("act for now")を受け取り、収集されたフィードバックをメモリバッファに格納し、新しい状態から将来の軌道を再計画する推論ルーチンを再起動する。鍵となる考え方は、LLMにおける推論をベイズ適応マルコフ決定プロセス(MDP)の学習と計画として使うことである。それに対応して、LLMは、メモリバッファ(学習)から未知環境の更新後部を形成するように促し、値関数(計画)を最大化する複数の将来のステップに対して最適な軌道を生成する。学習と計画のサブルーチンは、MDPのアクター批判更新をエミュレートする"コンテキスト内で"実行される。我々の理論的分析により, 長期的推論と短期的行為の新たな組み合わせは$\sqrt{t}$ regretが得られることが証明された。特に、後悔のバウンドは、事前訓練によって得られた事前知識と、推論と演技によって達成された不確実性低減との興味深い相互作用を強調する。私たちの実証検証では、既存のフレームワークよりも優れており、いくつかのベンチマークでほぼ完璧なスコアが得られています。

関連論文リスト

Enhancing LLM Reasoning for Time Series Classification by Tailored Thinking and Fused Decision [8.256998757769322]
ReasonTSC は時系列分類のための LLM 推論を活用するために設計されたフレームワークである。時系列データの本質的な特性について、モデルを熟考する。これは、例えばドメイン固有の時系列モデルのようなプラグイン分類器からの予測と信頼スコアを、インコンテキストの例として統合する。
論文参考訳（メタデータ） (2025-06-01T03:15:54Z)
Prejudge-Before-Think: Enhancing Large Language Models at Test-Time by Process Prejudge Reasoning [13.865037985388575]
我々は LLM 推論に新しい Emphprocess prejudge 戦略を導入する。我々は、推論ステップを表す理性において、事前判断ノードを定義する。動的木探索戦略を用いた自動推論フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-18T06:42:30Z)
SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs [48.28847964704554]
CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は複雑な推論タスクを解くことができる。本稿では,LLMの変更を必要としない連続空間推論のための新しい手法を提案する。
論文参考訳（メタデータ） (2025-02-17T18:52:29Z)
ReasonPlanner: Enhancing Autonomous Planning in Dynamic Environments with Temporal Knowledge Graphs and LLMs [0.32141666878560626]
本稿では,リフレクティブ思考,計画,対話的推論のための新しいジェネラリストエージェントReasonPlannerを紹介する。 ReasonPlannerはScienceWorldベンチマークの従来の最先端のプロンプトベースの手法を1.8倍以上上回っている。凍結重量のみに依存するため、勾配更新は不要である。
論文参考訳（メタデータ） (2024-10-11T20:58:51Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文参考訳（メタデータ） (2024-05-30T09:42:54Z)
Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing [61.98556945939045]
収集された軌道上でのDPO(Direct Preference Optimization)を通して計画に基づく推論を学習するフレームワークを提案する。論理的推論ベンチマークの挑戦的な結果から,学習フレームワークの有効性が示された。
論文参考訳（メタデータ） (2024-02-01T15:18:33Z)
Are LLMs Rigorous Logical Reasoner? Empowering Natural Language Proof Generation with Contrastive Stepwise Decoding [11.385103498440932]
本稿では,論理的推論のためのモデルの能力を高めるために,負の推論経路を用いることにより,ステップワイズな証明生成に対照的な復号を導入する。 EntailmentBankの実験は、言語モデルの計画能力を実証する上で、我々の手法の成功を裏付けている。
論文参考訳（メタデータ） (2023-11-12T05:12:49Z)
DetermLR: Augmenting LLM-based Logical Reasoning from Indeterminacy to Determinacy [76.58614128865652]
非決定性から決定性への進化として推論過程を再考する新しい視点であるDetermLRを提案する。まず、既知の条件を次の2つのタイプに分類する: 決定的および不決定的前提これは、推論プロセスのオール方向を提供し、不決定的データを段階的決定的洞察に変換する際のLCMを導く。我々は、利用可能な施設の保存と抽出、推論メモリによる推論パスの自動化、そしてその後の推論ステップに関する歴史的推論の詳細を保存する。
論文参考訳（メタデータ） (2023-10-28T10:05:51Z)
Remembering for the Right Reasons: Explanations Reduce Catastrophic Forgetting [100.75479161884935]
我々は、RRR(Remembering for the Right Reasons)と呼ばれる新しいトレーニングパラダイムを提案する。 RRRは、各例の視覚モデル説明をバッファに格納し、モデルが予測に「正しい理由」を持つことを保証する。メモリや正規化ベースのアプローチでRRRを容易に追加できることを示し、その結果、忘れを少なくする。
論文参考訳（メタデータ） (2020-10-04T10:05:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。