論文の概要: ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent
- arxiv url: http://arxiv.org/abs/2312.10003v1
- Date: Fri, 15 Dec 2023 18:20:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 14:29:30.333612
- Title: ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent
- Title(参考訳): restがreactと出会う - マルチステップ推論llmエージェントの自己改善
- Authors: Renat Aksitov, Sobhan Miryoosefi, Zonglin Li, Daliang Li, Sheila
Babayan, Kavya Kopparapu, Zachary Fisher, Ruiqi Guo, Sushant Prakash, Pranesh
Srinivasan, Manzil Zaheer, Felix Yu, Sanjiv Kumar
- Abstract要約: 外部知識に基づいて推論と行動を行うReAct-style LLMエージェントを開発した。
エージェントをReSTライクな手法で改良し,従来の軌道上で反復的に訓練する。
引き起こされた大きなモデルから始まり、アルゴリズムのたった2イテレーションの後に、微調整された小さなモデルを生成することができる。
- 参考スコア(独自算出の注目度): 50.508669199496474
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Answering complex natural language questions often necessitates multi-step
reasoning and integrating external information. Several systems have combined
knowledge retrieval with a large language model (LLM) to answer such questions.
These systems, however, suffer from various failure cases, and we cannot
directly train them end-to-end to fix such failures, as interaction with
external knowledge is non-differentiable. To address these deficiencies, we
define a ReAct-style LLM agent with the ability to reason and act upon external
knowledge. We further refine the agent through a ReST-like method that
iteratively trains on previous trajectories, employing growing-batch
reinforcement learning with AI feedback for continuous self-improvement and
self-distillation. Starting from a prompted large model and after just two
iterations of the algorithm, we can produce a fine-tuned small model that
achieves comparable performance on challenging compositional question-answering
benchmarks with two orders of magnitude fewer parameters.
- Abstract(参考訳): 複雑な自然言語質問に答えるには、しばしば多段階の推論と外部情報の統合が必要である。
いくつかのシステムは、知識検索と大きな言語モデル(LLM)を組み合わせて、そのような質問に答えている。
しかし、これらのシステムは様々な障害に悩まされており、外部知識との相互作用が区別できないため、これらの障害を修正するためにエンドツーエンドでそれらを訓練することはできない。
これらの欠陥に対処するために、外部知識に基づいて推論と行動を行うReActスタイルのLLMエージェントを定義する。
我々は,AIフィードバックを用いた成長バッチ強化学習を用いて,連続的な自己改善と自己蒸留を行うReSTライクな手法によりエージェントをさらに洗練する。
提案する大規模モデルから始めて,アルゴリズムを2回繰り返しただけで,2桁のパラメータで構成的質問応答ベンチマークに匹敵するパフォーマンスを実現する,微調整された小モデルを作成することができる。
関連論文リスト
- UniRQR: A Unified Model for Retrieval Decision, Query, and Response
Generation in Internet-Based Knowledge Dialogue Systems [8.724141214921314]
インターネット検索による知識ベースの対話システムは、通常、検索決定、クエリ生成、レスポンス生成の3つのタスクに分けられる。
我々の研究は、プロンプトおよびマルチタスク学習アプローチによって促進される単一の統一モデルを用いることで、この監視に対処する。
これらの機能を統合することで、事前訓練されたモデルの潜在能力をフル活用し、複数のモデルのデプロイに伴う複雑さとコストを削減する。
論文 参考訳(メタデータ) (2024-01-11T06:09:15Z) - Fine-Tuning or Retrieval? Comparing Knowledge Injection in LLMs [0.5461938536945721]
大規模言語モデル(LLM)は、事前訓練された重みの中に大量の事実情報をカプセル化する。
この知識は本質的に限られたものであり、トレーニングデータの特徴に大きく依存している。
教師なし微調整と検索拡張生成の2つの一般的なアプローチを比較した。
論文 参考訳(メタデータ) (2023-12-10T16:52:00Z) - R-Tuning: Teaching Large Language Models to Refuse Unknown Questions [68.60002086172133]
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
このアプローチは、まずパラメトリック知識と命令チューニングデータの間の知識ギャップを識別することによって定式化される。
実験により、この新しい命令チューニングアプローチは、既知の質問に答えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z) - Self-Knowledge Guided Retrieval Augmentation for Large Language Models [59.771098292611846]
大規模言語モデル(LLM)はタスク固有の微調整なしで優れた性能を示す。
検索に基づく手法は、非パラメトリックな世界知識を提供し、質問応答のようなタスクのパフォーマンスを向上させることができる。
SKR(Self-Knowledge guided Retrieval augmentation)は、LLMがこれまで遭遇した質問を参照できるようにする、シンプルで効果的な方法である。
論文 参考訳(メタデータ) (2023-10-08T04:22:33Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Rethinking with Retrieval: Faithful Large Language Model Inference [91.66406351103484]
我々は検索(RR)で再考する新しいポストプロセッシング手法を提案する。
RRは、チェーン・オブ・シークレット・プロンプトから得られた推論ステップに基づいて、関連する外部知識を検索する。
複雑な3つの推論課題に対する GPT-3 を用いた広範囲な実験により RR の有効性を評価する。
論文 参考訳(メタデータ) (2022-12-31T22:35:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。