論文の概要: Large Language Models Can Self-Improve
- arxiv url: http://arxiv.org/abs/2210.11610v1
- Date: Thu, 20 Oct 2022 21:53:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 14:37:21.968173
- Title: Large Language Models Can Self-Improve
- Title(参考訳): 大規模言語モデルは自己改善できる
- Authors: Jiaxin Huang, Shixiang Shane Gu, Le Hou, Yuexin Wu, Xuezhi Wang,
Hongkun Yu, Jiawei Han
- Abstract要約: 我々は、事前学習したLLMを用いて、ラベルなし質問に対する「高信頼」理性強化された回答を生成する。
提案手法は, 根拠となる真理ラベルを使わずに, 最先端のパフォーマンスを実現することができることを示す。
- 参考スコア(独自算出の注目度): 34.78624270280148
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have achieved excellent performances in various
tasks. However, fine-tuning an LLM requires extensive supervision. Human, on
the other hand, may improve their reasoning abilities by self-thinking without
external inputs. In this work, we demonstrate that an LLM is also capable of
self-improving with only unlabeled datasets. We use a pre-trained LLM to
generate "high-confidence" rationale-augmented answers for unlabeled questions
using Chain-of-Thought prompting and self-consistency, and fine-tune the LLM
using those self-generated solutions as target outputs. We show that our
approach improves the general reasoning ability of a 540B-parameter LLM
(74.4%->82.1% on GSM8K, 78.2%->83.0% on DROP, 90.0%->94.4% on OpenBookQA, and
63.4%->67.9% on ANLI-A3) and achieves state-of-the-art-level performance,
without any ground truth label. We conduct ablation studies and show that
fine-tuning on reasoning is critical for self-improvement.
- Abstract(参考訳): 大規模言語モデル(llm)は様々なタスクで優れたパフォーマンスを達成しています。
しかし、LLMの微調整には広範囲の監督が必要である。
一方、人間は外部入力なしで自己思考することで推論能力を向上させることができる。
本研究では,LLMがラベルのないデータセットのみを用いて自己改善できることを示す。
我々は、事前学習したLCMを用いて、Chain-of-Thoughtプロンプトと自己整合性を用いて、ラベルのない質問に対して「高信頼」な有理化解を生成する。
GSM8Kでは74.4%->82.1%,DROPでは78.2%->83.0%,OpenBookQAでは90.0%->94.4%,ANLI-A3では63.4%->67.9%)の一般的な推論能力を向上し,基礎的真理ラベルを使わずに最先端のパフォーマンスを実現する。
アブレーション研究を行い,推論の微調整が自己改善に不可欠であることを示す。
関連論文リスト
- Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。
LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。
複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文 参考訳(メタデータ) (2024-11-06T22:02:30Z) - LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。
オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。
この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文 参考訳(メタデータ) (2024-10-09T01:25:10Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - Self-Explore: Enhancing Mathematical Reasoning in Language Models with Fine-grained Rewards [42.065997425172974]
大規模言語モデル(LLM)の推論能力向上には,大量の論理学(CoTファインチューニング)の訓練が有効である。
本稿では,LLMが論理学における最初の間違ったステップを探索し,より詳細な報奨などの信号を用いてさらなる改善を行うセルフエクスロアを提案する。
GSM8KとMATHテストセットでは、教師付き微調整(SFT)と比較して平均11.57%と2.89%の改善を達成した。
論文 参考訳(メタデータ) (2024-04-16T07:30:11Z) - Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。
我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。
我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文 参考訳(メタデータ) (2024-02-18T03:10:39Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。