Fugu-MT 論文翻訳(概要): Large Language Models Can Self-Improve

論文の概要: Large Language Models Can Self-Improve

arxiv url: http://arxiv.org/abs/2210.11610v1
Date: Thu, 20 Oct 2022 21:53:54 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-24 14:37:21.968173
Title: Large Language Models Can Self-Improve
Title（参考訳）: 大規模言語モデルは自己改善できる
Authors: Jiaxin Huang, Shixiang Shane Gu, Le Hou, Yuexin Wu, Xuezhi Wang, Hongkun Yu, Jiawei Han
Abstract要約: 我々は、事前学習したLLMを用いて、ラベルなし質問に対する「高信頼」理性強化された回答を生成する。提案手法は, 根拠となる真理ラベルを使わずに, 最先端のパフォーマンスを実現することができることを示す。
参考スコア（独自算出の注目度）: 34.78624270280148
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have achieved excellent performances in various tasks. However, fine-tuning an LLM requires extensive supervision. Human, on the other hand, may improve their reasoning abilities by self-thinking without external inputs. In this work, we demonstrate that an LLM is also capable of self-improving with only unlabeled datasets. We use a pre-trained LLM to generate "high-confidence" rationale-augmented answers for unlabeled questions using Chain-of-Thought prompting and self-consistency, and fine-tune the LLM using those self-generated solutions as target outputs. We show that our approach improves the general reasoning ability of a 540B-parameter LLM (74.4%->82.1% on GSM8K, 78.2%->83.0% on DROP, 90.0%->94.4% on OpenBookQA, and 63.4%->67.9% on ANLI-A3) and achieves state-of-the-art-level performance, without any ground truth label. We conduct ablation studies and show that fine-tuning on reasoning is critical for self-improvement.
Abstract（参考訳）: 大規模言語モデル(llm)は様々なタスクで優れたパフォーマンスを達成しています。しかし、LLMの微調整には広範囲の監督が必要である。一方、人間は外部入力なしで自己思考することで推論能力を向上させることができる。本研究では,LLMがラベルのないデータセットのみを用いて自己改善できることを示す。我々は、事前学習したLCMを用いて、Chain-of-Thoughtプロンプトと自己整合性を用いて、ラベルのない質問に対して「高信頼」な有理化解を生成する。 GSM8Kでは74.4%->82.1%,DROPでは78.2%->83.0%,OpenBookQAでは90.0%->94.4%,ANLI-A3では63.4%->67.9%)の一般的な推論能力を向上し,基礎的真理ラベルを使わずに最先端のパフォーマンスを実現する。アブレーション研究を行い,推論の微調整が自己改善に不可欠であることを示す。

関連論文リスト

The Self-Improvement Paradox: Can Language Models Bootstrap Reasoning Capabilities without External Scaffolding? [39.602857110637736]
本稿では,高品質な質問応答データを完全自律的に生成するフレームワークであるCrescentを提案する。数学推論のための外部監視信号がゼロであることから、クレセントは真の自己改善の可能性に光を当てている。
論文参考訳（メタデータ） (2025-02-19T05:37:08Z)
S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文参考訳（メタデータ） (2025-02-18T13:40:22Z)
Towards Reasoning Ability of Small Language Models [3.732224317444325]
我々は,小言語モデル (SLM) が競争力のある推論性能を実現できることを示す。 14の推論ベンチマークで6つのモデルファミリーから72のSLMを体系的に調査し、ベンチマークし、分析した。我々の発見は、スケーリングが強力な推論を達成する唯一の方法である、という仮定に挑戦する。
論文参考訳（メタデータ） (2025-02-17T08:59:16Z)
Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。 LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文参考訳（メタデータ） (2024-11-06T22:02:30Z)
LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文参考訳（メタデータ） (2024-10-09T01:25:10Z)
Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文参考訳（メタデータ） (2024-04-18T15:21:34Z)
Self-Explore: Enhancing Mathematical Reasoning in Language Models with Fine-grained Rewards [42.065997425172974]
大規模言語モデル(LLM)の推論能力向上には,大量の論理学(CoTファインチューニング)の訓練が有効である。本稿では,LLMが論理学における最初の間違ったステップを探索し,より詳細な報奨などの信号を用いてさらなる改善を行うセルフエクスロアを提案する。 GSM8KとMATHテストセットでは、教師付き微調整(SFT)と比較して平均11.57%と2.89%の改善を達成した。
論文参考訳（メタデータ） (2024-04-16T07:30:11Z)
Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文参考訳（メタデータ） (2024-02-18T03:10:39Z)
Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。 SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文参考訳（メタデータ） (2024-01-02T18:53:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。