論文の概要: The Self-Improvement Paradox: Can Language Models Bootstrap Reasoning Capabilities without External Scaffolding?
- arxiv url: http://arxiv.org/abs/2502.13441v1
- Date: Wed, 19 Feb 2025 05:37:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 14:01:36.558272
- Title: The Self-Improvement Paradox: Can Language Models Bootstrap Reasoning Capabilities without External Scaffolding?
- Title(参考訳): 自己改善パラドックス: 言語モデルが外部スキャッフィングなしでブートストラップ推論できるか?
- Authors: Yutao Sun, Mingshuai Chen, Tiancheng Zhao, Ruochen Xu, Zilun Zhang, Jianwei Yin,
- Abstract要約: 本稿では,高品質な質問応答データを完全自律的に生成するフレームワークであるCrescentを提案する。
数学推論のための外部監視信号がゼロであることから、クレセントは真の自己改善の可能性に光を当てている。
- 参考スコア(独自算出の注目度): 39.602857110637736
- License:
- Abstract: Self-improving large language models (LLMs) -- i.e., to improve the performance of an LLM by fine-tuning it with synthetic data generated by itself -- is a promising way to advance the capabilities of LLMs while avoiding extensive supervision. Existing approaches to self-improvement often rely on external supervision signals in the form of seed data and/or assistance from third-party models. This paper presents Crescent -- a simple yet effective framework for generating high-quality synthetic question-answer data in a fully autonomous manner. Crescent first elicits the LLM to generate raw questions via a bait prompt, then diversifies these questions leveraging a rejection sampling-based self-deduplication, and finally feeds the questions to the LLM and collects the corresponding answers by means of majority voting. We show that Crescent sheds light on the potential of true self-improvement with zero external supervision signals for math reasoning; in particular, Crescent-generated question-answer pairs suffice to (i) improve the reasoning capabilities of an LLM while preserving its general performance (especially in the 0-shot setting); and (ii) distil LLM knowledge to weaker models more effectively than existing methods based on seed-dataset augmentation.
- Abstract(参考訳): 自己改善型大規模言語モデル(LLM) - それ自体が生成した合成データを微調整することでLLMの性能を向上する - は、広範囲の監視を回避しつつ、LLMの能力を向上する有望な方法である。
既存の自己改善アプローチは、シードデータやサードパーティモデルのアシストという形で外部の監視信号に依存することが多い。
本稿では,完全自律的に高品質な質問応答データを生成するための,単純かつ効果的なフレームワークであるCrescentを提案する。
Crescent はまず LLM に餌のプロンプトを通じて生の質問を誘導し、その後、拒絶サンプリングに基づく自己複製を利用してこれらの質問を多様化させ、最後に LLM に質問を送付し、多数決によって対応する回答を収集する。
私たちは、クレセントが真の自己改善の可能性に光を当て、数学推論のための外部監視信号がゼロであることを示し、特に、クレセント生成された質問応答対は十分であることを示した。
一 一般性能(特に0ショット設定において)を維持しつつ、LCMの推論能力を向上させること。
(II) LLM の知識をシードデータセット拡張に基づく既存手法よりも効果的に弱体化させる。
関連論文リスト
- Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - Enhancing Large Language Model Performance To Answer Questions and
Extract Information More Accurately [2.1715455600756646]
大きな言語モデル(LLM)は質問に対する応答を生成する。
それらの効果は、答えの最適でない品質や、質問に対する正確な回答を提供するための失敗によってしばしば妨げられる。
これらの課題に対処するため、モデルを改善するためのフィードバックやサンプルを含む、微調整プロセスが採用されている。
論文 参考訳(メタデータ) (2024-01-27T00:18:07Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Knowing What LLMs DO NOT Know: A Simple Yet Effective Self-Detection Method [36.24876571343749]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて大きな可能性を示している。
近年の文献では、LLMは断続的に非実効応答を生成する。
本研究では,LLM が知らない質問が非現実的な結果を生成する傾向にあることを検知する新たな自己検出手法を提案する。
論文 参考訳(メタデータ) (2023-10-27T06:22:14Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - SELF: Self-Evolution with Language Feedback [68.6673019284853]
SELF(Self-Evolution with Language Feedback)は、大規模言語モデルを進化させる新しいアプローチである。
LLMは、人間の学習プロセスと同様、自己回帰を通じて自己改善を可能にする。
数学および一般タスクにおける実験により,SELFは人間の介入なしにLLMの能力を高めることができることが示された。
論文 参考訳(メタデータ) (2023-10-01T00:52:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。