論文の概要: Large Language Models Can Self-Improve
- arxiv url: http://arxiv.org/abs/2210.11610v1
- Date: Thu, 20 Oct 2022 21:53:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 14:37:21.968173
- Title: Large Language Models Can Self-Improve
- Title(参考訳): 大規模言語モデルは自己改善できる
- Authors: Jiaxin Huang, Shixiang Shane Gu, Le Hou, Yuexin Wu, Xuezhi Wang,
Hongkun Yu, Jiawei Han
- Abstract要約: 我々は、事前学習したLLMを用いて、ラベルなし質問に対する「高信頼」理性強化された回答を生成する。
提案手法は, 根拠となる真理ラベルを使わずに, 最先端のパフォーマンスを実現することができることを示す。
- 参考スコア(独自算出の注目度): 34.78624270280148
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have achieved excellent performances in various
tasks. However, fine-tuning an LLM requires extensive supervision. Human, on
the other hand, may improve their reasoning abilities by self-thinking without
external inputs. In this work, we demonstrate that an LLM is also capable of
self-improving with only unlabeled datasets. We use a pre-trained LLM to
generate "high-confidence" rationale-augmented answers for unlabeled questions
using Chain-of-Thought prompting and self-consistency, and fine-tune the LLM
using those self-generated solutions as target outputs. We show that our
approach improves the general reasoning ability of a 540B-parameter LLM
(74.4%->82.1% on GSM8K, 78.2%->83.0% on DROP, 90.0%->94.4% on OpenBookQA, and
63.4%->67.9% on ANLI-A3) and achieves state-of-the-art-level performance,
without any ground truth label. We conduct ablation studies and show that
fine-tuning on reasoning is critical for self-improvement.
- Abstract(参考訳): 大規模言語モデル(llm)は様々なタスクで優れたパフォーマンスを達成しています。
しかし、LLMの微調整には広範囲の監督が必要である。
一方、人間は外部入力なしで自己思考することで推論能力を向上させることができる。
本研究では,LLMがラベルのないデータセットのみを用いて自己改善できることを示す。
我々は、事前学習したLCMを用いて、Chain-of-Thoughtプロンプトと自己整合性を用いて、ラベルのない質問に対して「高信頼」な有理化解を生成する。
GSM8Kでは74.4%->82.1%,DROPでは78.2%->83.0%,OpenBookQAでは90.0%->94.4%,ANLI-A3では63.4%->67.9%)の一般的な推論能力を向上し,基礎的真理ラベルを使わずに最先端のパフォーマンスを実現する。
アブレーション研究を行い,推論の微調整が自己改善に不可欠であることを示す。
関連論文リスト
- Call Me When Necessary: LLMs can Efficiently and Faithfully Reason over
Structured Environments [42.05859466572793]
本稿では,構造化環境に対する効率的な推論を行うために,Reasoning-Path-Editing (Readi)を提案する。
Readiはクエリが与えられた推論パスを生成し、必要なときにのみそのパスを編集する。
3つのKGQAデータセットと2つのTableQAデータセットの実験結果は、Readiの有効性を示している。
論文 参考訳(メタデータ) (2024-03-13T14:59:07Z) - GRATH: Gradual Self-Truthifying for Large Language Models [63.502835648056305]
GRATH(Gradual Self-Truthifying)は,大規模言語モデル(LLM)の真偽性を高めるためのポストプロセッシング手法である。
GRATHは、反復的に真理データを洗練し、モデルを更新する。
GRATHはTruthfulQAの最先端性能を達成し、MC1の精度は54.71%、MC2の精度は69.10%であり、70B-LLMよりも高い。
論文 参考訳(メタデータ) (2024-01-22T19:00:08Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language
Models [56.84735912476625]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - A & B == B & A: Triggering Logical Reasoning Failures in Large Language
Models [65.86149763739141]
LogicAskerはLLMの論理的推論能力を総合的に評価し改善する自動手法である。
LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。
その結果、LogicAskerのテストケースは、異なるLLMで論理的推論失敗を25%から94%の確率で発見できることがわかった。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - Adaptation with Self-Evaluation to Improve Selective Prediction in LLMs [56.526095828316386]
大規模言語モデル(LLM)の選択予測性能を改善するために,自己評価による適応のための新しいフレームワークを提案する。
提案手法は,様々な質問応答(QA)データセット上で評価し,最先端の選択的予測手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-18T03:34:59Z) - Probing the Multi-turn Planning Capabilities of LLMs via 20 Question
Games [14.063311955315077]
大規模言語モデル(LLM)は、明らかに求められている質問に答えるのに効果的である。
不明瞭なクエリに直面した場合、予測不能に動作し、誤った出力を生成することができる。
このことは、曖昧さを効果的に解決するために明確化を問うことができる知的エージェントの開発の必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2023-10-02T16:55:37Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。