論文の概要: BOLT: Bootstrap Long Chain-of-Thought in Language Models without Distillation
- arxiv url: http://arxiv.org/abs/2502.03860v1
- Date: Thu, 06 Feb 2025 08:19:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:33:05.345101
- Title: BOLT: Bootstrap Long Chain-of-Thought in Language Models without Distillation
- Title(参考訳): BOLT: 蒸留のない言語モデルにおけるブートストラップ長鎖
- Authors: Bo Pang, Hanze Dong, Jiacheng Xu, Silvio Savarese, Yingbo Zhou, Caiming Xiong,
- Abstract要約: OpenAIのo1は、驚くべき推論機能を示している。
多くのチームがLongCoTと推論機能を再現しようと試みている。
本稿では,o1-likeモデルや高価な人体アノテーションを蒸留することなくLCMのLongCoTキャパシティを実現するための新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 88.77999917897702
- License:
- Abstract: Large language models (LLMs), such as o1 from OpenAI, have demonstrated remarkable reasoning capabilities. o1 generates a long chain-of-thought (LongCoT) before answering a question. LongCoT allows LLMs to analyze problems, devise plans, reflect, and backtrack effectively. These actions empower LLM to solve complex problems. After the release of o1, many teams have attempted to replicate its LongCoT and reasoning capabilities. In terms of methods, they primarily rely on knowledge distillation with data from existing models with LongCoT capacities (e.g., OpenAI-o1, Qwen-QwQ, DeepSeek-R1-Preview), leaving significant uncertainties on systematically developing such reasoning abilities. In terms of data domains, these works focus narrowly on math while a few others include coding, limiting their generalizability. This paper introduces a novel approach to enable LLM's LongCoT capacity without distillation from o1-like models or expensive human annotations, where we bootstrap LongCoT (BOLT) from a standard instruct model. BOLT involves three stages: 1) LongCoT data bootstrapping with in-context learning on a standard instruct model; 2) LongCoT supervised finetuning; 3) online training to further refine LongCoT capacities. In BOLT, only a few in-context examples need to be constructed during the bootstrapping stage; in our experiments, we created 10 examples, demonstrating the feasibility of this approach. We use Llama-3.1-70B-Instruct to bootstrap LongCoT and apply our method to various model scales (7B, 8B, 70B). We achieve impressive performance on a variety of benchmarks, Arena-Hard, MT-Bench, WildBench, ZebraLogic, MATH500, which evaluate diverse task-solving and reasoning capabilities.
- Abstract(参考訳): OpenAIのo1のような大きな言語モデル(LLM)は、顕著な推論能力を示している。
o1は質問に答える前に長いチェーン(LongCoT)を生成する。
LongCoTは、LSMが問題を分析し、計画を作成し、リフレクションし、バックトラックを効果的に作成することを可能にする。
これらの作用により、LLMは複雑な問題を解くことができる。
o1のリリース後、多くのチームがLongCoTと推論機能を複製しようと試みている。
方法の面では、主にLongCoT能力を持つ既存のモデル(例えば、OpenAI-o1、Qwen-QwQ、DeepSeek-R1-Preview)のデータによる知識蒸留に依存しており、そのような推論能力の体系的開発に重大な不確実性を残している。
データドメインの観点では、これらの作業は数学に焦点を絞る一方で、コーディングを含むいくつかの作業は、一般化性を制限する。
本稿では, 標準命令モデルからLongCoT(BOLT)をブートストラップする, o1-likeモデルや高価なアノテーションを蒸留することなく, LLMのLongCoT容量を有効にするための新しいアプローチを提案する。
BOLTには3つの段階がある。
1)標準命令モデルを用いたコンテキスト内学習によるLongCoTデータブートストラップ
2 ロングコート監督微調整
3)LongCoT能力をさらに強化するためのオンライントレーニング。
BOLTでは、ブートストラッピングの段階でいくつかのコンテキスト内サンプルを構築する必要があり、我々の実験では、このアプローチの実現可能性を示す10の例を作成しました。
Llama-3.1-70B-Instructを使ってLongCoTをブートストラップし,様々なモデルスケール(7B,8B,70B)に適用する。
我々は,多種多様なタスク解決能力と推論能力を評価する各種ベンチマーク,Arena-Hard,MT-Bench,WildBench,ZebraLogic,MATH500において,優れた性能を実現している。
関連論文リスト
- LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters! [53.84130385074551]
大推論モデル(LRM)は、長いチェーン・オブ・シント(Long CoT)に従うことによって複雑な推論問題に取り組む
また,Large Language Model (LLM) は,データ効率の教師付き微調整 (SFT) とパラメータ効率の低い低ランク適応 (LoRA) により,Long CoT推論を効果的に学習できることを見出した。
たった17kのCoTトレーニングサンプルで、Qwen2.5-32B-Instructモデルは、幅広い数学およびコーディングベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2025-02-11T08:48:48Z) - RedStar: Does Scaling Long-CoT Data Unlock Better Slow-Reasoning Systems? [40.575978129688586]
我々は、Long Chain-of-Thought(Long-CoT)データを1000kサンプルにスケールアップする未解決の可能性を探求し、スロー思考モデルであるRedStarの開発を開拓した。
驚くべきことに、たとえ小さなモデルであっても、限られたデータで大きなパフォーマンス向上を示し、Long-CoTのサンプル効率を明らかにしている。
MATH-Hardベンチマークでは、RedStar-code-mathが66.2%から81.6%に向上し、USA Math Olympiad (AIME)では21kの混合コード-mathデータセットを使用して46.7%の問題を解決している。
論文 参考訳(メタデータ) (2025-01-20T05:44:01Z) - Bootstrap Your Own Context Length [74.61148597039248]
長文言語モデルを学習するためのブートストラップ手法を提案する。
提案したデータ合成ワークフローは、短いコンテキスト言語モデル、テキスト検索、文書収集のみを必要とする。
我々は,オープンソースのLlama-3ファミリを用いて実験を行い,最大100万トークンまでコンテキスト長を拡張できることを実証した。
論文 参考訳(メタデータ) (2024-12-25T10:08:54Z) - How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。
ProLong-8BはLlama-3のもので、40Bトークンで訓練されている。
論文 参考訳(メタデータ) (2024-10-03T16:46:52Z) - LongAlign: A Recipe for Long Context Alignment of Large Language Models [61.85923382850057]
LongAlignは、ロングコンテキストアライメントのための命令データ、トレーニング、評価のレシピである。
我々はSelf-Instructを使って長い命令追従データセットを構築した。
我々は、長さ分布の異なるデータの教師付き微調整を高速化するために、パッキングとソート戦略を採用した。
論文 参考訳(メタデータ) (2024-01-31T18:29:39Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z) - Giraffe: Adventures in Expanding Context Lengths in LLMs [7.8327063299618]
線形スケーリングは文脈長を拡張するのに最適であることを示す。
また,将来的な外挿機能についても検討した。
この領域のさらなる研究を支援するために,13Bパラメータ長コンテキストモデルを新たに3つリリースする。
論文 参考訳(メタデータ) (2023-08-21T17:30:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。