論文の概要: SELF: Self-Evolution with Language Feedback
- arxiv url: http://arxiv.org/abs/2310.00533v4
- Date: Thu, 1 Feb 2024 06:10:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 19:16:10.000619
- Title: SELF: Self-Evolution with Language Feedback
- Title(参考訳): SELF: 言語フィードバックによる自己進化
- Authors: Jianqiao Lu, Wanjun Zhong, Wenyong Huang, Yufei Wang, Qi Zhu, Fei Mi,
Baojun Wang, Weichao Wang, Xingshan Zeng, Lifeng Shang, Xin Jiang, Qun Liu
- Abstract要約: SELF(Self-Evolution with Language Feedback)は、大規模言語モデルを進化させる新しいアプローチである。
LLMは、人間の学習プロセスと同様、自己回帰を通じて自己改善を可能にする。
数学および一般タスクにおける実験により,SELFは人間の介入なしにLLMの能力を高めることができることが示された。
- 参考スコア(独自算出の注目度): 68.6673019284853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable versatility across
various domains. To further advance LLMs, we propose 'SELF' (Self-Evolution
with Language Feedback), a novel approach that enables LLMs to self-improve
through self-reflection, akin to human learning processes. SELF initiates with
a meta-skill learning process that equips the LLMs with capabilities for
self-feedback and self-refinement. Subsequently, the model undergoes an
iterative process of self-evolution. In each iteration, it utilizes an
unlabeled dataset of instructions to generate initial responses. These
responses are enhanced through self-feedback and self-refinement. The model is
then fine-tuned using this enhanced data. The model undergoes progressive
improvement through this iterative self-evolution process. Moreover, the SELF
framework enables the model to apply self-refinement during inference, which
further improves response quality. Our experiments in mathematics and general
tasks demonstrate that SELF can enhance the capabilities of LLMs without human
intervention. The SELF framework indicates a promising direction for the
autonomous evolution of LLMs, transitioning them from passive information
receivers to active participants in their development.
- Abstract(参考訳): 大規模言語モデル (llm) は様々な領域において顕著な汎用性を示している。
llmをさらに前進させるために,人間の学習プロセスに類似した自己回帰による自己改善を可能にする新しいアプローチである「自己」を提案する。
SELFはメタスキルの学習プロセスで開始され、LSMに自己フィードバックと自己修正の能力を持たせる。
その後、モデルが自己進化の反復過程を行う。
各イテレーションでは、ラベルのない命令データセットを使用して初期レスポンスを生成する。
これらの反応は自己フィードバックと自己抑制によって強化される。
この拡張データを使ってモデルを微調整する。
このモデルは、反復的な自己進化プロセスを通じて、進歩的な改善を行う。
さらに、selfフレームワークにより、推論中にモデルが自己定義を適用できるようになり、応答品質がさらに向上する。
数学および一般タスクにおける実験により,SELFは人間の介入なしにLLMの能力を高めることができることが示された。
SELFフレームワークは、LSMの自律的な進化のための有望な方向を示し、それらを受動的情報受信機から開発におけるアクティブな参加者へ移行する。
関連論文リスト
- Long Term Memory: The Foundation of AI Self-Evolution [48.52678410533424]
GPTのような大規模な言語モデル(LLM)は、膨大なデータセットに基づいてトレーニングされており、言語理解、推論、計画において印象的な能力を示している。
ほとんどの研究は、より強力な基盤モデルを構築するために、より大規模なデータセットをトレーニングすることで、これらのモデルを強化することに重点を置いている。
大規模なトレーニングとは異なり、推論中にモデルを進化させることは、AIの自己進化(self-evolution)と呼ばれるプロセスと同等に重要である。
論文 参考訳(メタデータ) (2024-10-21T06:09:30Z) - LLMs Could Autonomously Learn Without External Supervision [36.36147944680502]
大規模言語モデル(LLM)は、伝統的に人間の注釈付きデータセットと事前定義されたトレーニング目標に結び付けられてきた。
本稿では,LLMのための自律学習手法を提案する。
本手法は, LLMに対して, 文章と直接対話して自己学習を行う能力を与える。
論文 参考訳(メタデータ) (2024-06-02T03:36:37Z) - LLMs can learn self-restraint through iterative self-reflection [57.26854891567574]
大規模言語モデル(LLM)は、特定のトピックに関連する知識と不確実性に基づいて、その振る舞いを動的に適応できなければならない。
この適応的行動は、私たちが自己規制と呼ぶもので、教えるのは簡単ではない。
モデルが信頼している場合にのみ応答を生成できるようにするユーティリティ関数を考案する。
論文 参考訳(メタデータ) (2024-05-15T13:35:43Z) - A Survey on Self-Evolution of Large Language Models [116.54238664264928]
大規模言語モデル(LLM)は、様々な分野やインテリジェントエージェントアプリケーションにおいて大きく進歩している。
この問題に対処するために、LLMが自律的に獲得し、洗練し、モデル自身によって生成された経験から学ぶことができる自己進化的アプローチが急速に成長している。
論文 参考訳(メタデータ) (2024-04-22T17:43:23Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - LLM Guided Evolution - The Automation of Models Advancing Models [0.0]
ガイドド・エボリューション(GE)は、従来の機械学習アプローチから切り離された斬新なフレームワークである。
思想の進化(EoT)は、従来の突然変異の結果からLLMを反映して学習させることでGEを強化する。
ExquisiteNetV2モデルの進化におけるGEの適用は,その有効性を示している。
論文 参考訳(メタデータ) (2024-03-18T03:44:55Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。