論文の概要: CoT-Self-Instruct: Building high-quality synthetic prompts for reasoning and non-reasoning tasks
- arxiv url: http://arxiv.org/abs/2507.23751v1
- Date: Thu, 31 Jul 2025 17:38:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:10.136447
- Title: CoT-Self-Instruct: Building high-quality synthetic prompts for reasoning and non-reasoning tasks
- Title(参考訳): CoT-Self-Instruct:推論および非推論タスクのための高品質な合成プロンプトの構築
- Authors: Ping Yu, Jack Lanchantin, Tianlu Wang, Weizhe Yuan, Olga Golovneva, Ilia Kulikov, Sainbayar Sukhbaatar, Jason Weston, Jing Xu,
- Abstract要約: 合成データ生成手法CoT-Self-Instructを提案する。
検証可能な推論において、我々の合成データはs1kやOpenMathReasoningといった既存のトレーニングデータセットよりも大幅に優れています。
検証不能な命令追従タスクに対しては、AlpacaEval 2.0とArena-Hardの両方で、人間または標準の自己指示プロンプトの性能を上回ります。
- 参考スコア(独自算出の注目度): 57.482238100217195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose CoT-Self-Instruct, a synthetic data generation method that instructs LLMs to first reason and plan via Chain-of-Thought (CoT) based on the given seed tasks, and then to generate a new synthetic prompt of similar quality and complexity for use in LLM training, followed by filtering for high-quality data with automatic metrics. In verifiable reasoning, our synthetic data significantly outperforms existing training datasets, such as s1k and OpenMathReasoning, across MATH500, AMC23, AIME24 and GPQA-Diamond. For non-verifiable instruction-following tasks, our method surpasses the performance of human or standard self-instruct prompts on both AlpacaEval 2.0 and Arena-Hard.
- Abstract(参考訳): 提案する合成データ生成手法であるCoT-Self-Instructは,所与のシードタスクに基づいて,まずはChain-of-Thought(CoT)を経由し,次に,LLMトレーニングで使用する類似品質と複雑性の新たな合成プロンプトを生成し,次いで自動測定値による高品質なデータのフィルタリングを行う。
検証可能な推論において、我々の合成データは、MATH500、AMC23、AIME24、GPQA-Diamondを含む既存のトレーニングデータセット、例えばs1kやOpenMathReasoningを著しく上回る。
検証不能な命令追従タスクに対しては、AlpacaEval 2.0とArena-Hardの両方で、人間または標準の自己指示プロンプトの性能を上回ります。
関連論文リスト
- Genetic Instruct: Scaling up Synthetic Generation of Coding Instructions for Large Language Models [59.60208063956459]
大規模言語モデル(LLM)は、効果的なアライメントのために高品質な命令データを必要とする。
本稿では,大規模かつ高品質な符号化命令を合成するスケーラブルなアルゴリズムであるGenematic-Instructを提案する。
論文 参考訳(メタデータ) (2024-07-29T20:42:59Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - Reinforcement Learning and Data-Generation for Syntax-Guided Synthesis [0.0]
我々はモンテカルロ木探索(MCTS)を用いて候補解の空間を探索するSyGuSの強化学習アルゴリズムを提案する。
我々のアルゴリズムは,木に縛られた高信頼度と組み合わさって,探索と利用のバランスをとるためのポリシーと価値関数を学習する。
論文 参考訳(メタデータ) (2023-07-13T11:30:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。