論文の概要: Recursive Introspection: Teaching Language Model Agents How to Self-Improve
- arxiv url: http://arxiv.org/abs/2407.18219v2
- Date: Fri, 26 Jul 2024 17:50:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 12:30:11.140667
- Title: Recursive Introspection: Teaching Language Model Agents How to Self-Improve
- Title(参考訳): 帰納的イントロスペクション:言語モデルエージェントに自己改善の仕方を教える
- Authors: Yuxiao Qu, Tianjun Zhang, Naman Garg, Aviral Kumar,
- Abstract要約: RISE: Recursive IntroSpEctionは,大規模言語モデルを微調整する手法である。
実験の結果,RISEはLlama2,Llama3,Mistralの各モデルに対して,数学推論タスクのターン数を増やすことで自己改善を可能にすることがわかった。
- 参考スコア(独自算出の注目度): 30.086494067593268
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A central piece in enabling intelligent agentic behavior in foundation models is to make them capable of introspecting upon their behavior, reasoning, and correcting their mistakes as more computation or interaction is available. Even the strongest proprietary large language models (LLMs) do not quite exhibit the ability of continually improving their responses sequentially, even in scenarios where they are explicitly told that they are making a mistake. In this paper, we develop RISE: Recursive IntroSpEction, an approach for fine-tuning LLMs to introduce this capability, despite prior work hypothesizing that this capability may not be possible to attain. Our approach prescribes an iterative fine-tuning procedure, which attempts to teach the model how to alter its response after having executed previously unsuccessful attempts to solve a hard test-time problem, with optionally additional environment feedback. RISE poses fine-tuning for a single-turn prompt as solving a multi-turn Markov decision process (MDP), where the initial state is the prompt. Inspired by principles in online imitation learning and reinforcement learning, we propose strategies for multi-turn data collection and training so as to imbue an LLM with the capability to recursively detect and correct its previous mistakes in subsequent iterations. Our experiments show that RISE enables Llama2, Llama3, and Mistral models to improve themselves with more turns on math reasoning tasks, outperforming several single-turn strategies given an equal amount of inference-time computation. We also find that RISE scales well, often attaining larger benefits with more capable models. Our analysis shows that RISE makes meaningful improvements to responses to arrive at the correct solution for challenging prompts, without disrupting one-turn abilities as a result of expressing more complex distributions.
- Abstract(参考訳): ファンデーションモデルにおけるインテリジェントなエージェント的行動を可能にするための中心的な要素は、より多くの計算や相互作用が利用可能であるように、彼らの振る舞いをイントロスペクションし、推論し、誤りを修正することができるようにすることである。
最強のプロプライエタリな大規模言語モデル(LLM)でさえ、過ちを明示的に告げられるシナリオであっても、連続的に応答を改善する能力は十分に示されていない。
本稿では,この能力を達成できないと仮定した先行研究にもかかわらず,微調整型LLMの手法であるRISE: Recursive IntroSpEctionを開発する。
提案手法は,テストタイムの難解な問題を事前に実行した後,モデルに応答の修正方法を教えるための反復的な微調整手順を規定し,任意に環境フィードバックを付加する。
RISEは、初期状態がプロンプトであるマルチターンマルコフ決定プロセス(MDP)の解決として、シングルターンプロンプトの微調整を行う。
オンラインの模倣学習と強化学習の原則に着想を得て, 複数ターンのデータ収集と学習の戦略を提案し, 繰り返し繰り返しの誤りを再帰的に検出し, 修正する能力を持つLLMを組み込む。
実験の結果,RISEはLlama2,Llama3,Mistralの各モデルに対して,算数推論タスクのターン数を増やすことで自己改善を実現している。
また、RISEはうまくスケールし、より有能なモデルでより大きなメリットを得ることができることもわかりました。
解析の結果、RISEはより複雑な分布を表現した結果、一ターンの能力を損なうことなく、正しい解にたどり着くための応答を有意義に改善していることがわかった。
関連論文リスト
- LLMs can learn self-restraint through iterative self-reflection [57.26854891567574]
大規模言語モデル(LLM)は、特定のトピックに関連する知識と不確実性に基づいて、その振る舞いを動的に適応できなければならない。
この適応的行動は、私たちが自己規制と呼ぶもので、教えるのは簡単ではない。
モデルが信頼している場合にのみ応答を生成できるようにするユーティリティ関数を考案する。
論文 参考訳(メタデータ) (2024-05-15T13:35:43Z) - AlphaMath Almost Zero: process Supervision without process [6.318873143509028]
大規模言語モデル(LLM)は、複数の推論ステップを必要とする複雑な問題に悩まされる。
我々はモンテカルロ木探索(MCTS)フレームワークを利用することで、プロセスアノテーション(人間やGPTから)の必要性を回避できる革新的なアプローチを導入する。
提案手法はポリシーと価値モデルを反復的に訓練し,LLMの能力を活用している。
論文 参考訳(メタデータ) (2024-05-06T15:20:30Z) - Reframing Offline Reinforcement Learning as a Regression Problem [0.0]
本研究は,決定木を用いて解ける回帰問題として,オフライン強化学習の改革を提案する。
勾配木ではエージェントのトレーニングと推論が非常に高速であることが観察された。
この改良された問題に固有の単純化にもかかわらず、我々のエージェントは、少なくとも確立された手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2024-01-21T23:50:46Z) - ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent [50.508669199496474]
外部知識に基づいて推論と行動を行うReAct-style LLMエージェントを開発した。
エージェントをReSTライクな手法で改良し,従来の軌道上で反復的に訓練する。
引き起こされた大きなモデルから始まり、アルゴリズムのたった2イテレーションの後に、微調整された小さなモデルを生成することができる。
論文 参考訳(メタデータ) (2023-12-15T18:20:15Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient
Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。
この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。
第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文 参考訳(メタデータ) (2023-08-21T02:07:35Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Sequential Transfer in Reinforcement Learning with a Generative Model [48.40219742217783]
本稿では,従来の課題から知識を移譲することで,新たな課題を学習する際のサンプルの複雑さを軽減する方法について述べる。
この種の事前知識を使用することのメリットを明確に示すために,PAC境界のサンプル複雑性を導出する。
簡単なシミュレートされた領域における理論的な発見を実証的に検証する。
論文 参考訳(メタデータ) (2020-07-01T19:53:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。