Fugu-MT 論文翻訳(概要): Mining Hidden Thoughts from Texts: Evaluating Continual Pretraining with Synthetic Data for LLM Reasoning

論文の概要: Mining Hidden Thoughts from Texts: Evaluating Continual Pretraining with Synthetic Data for LLM Reasoning

arxiv url: http://arxiv.org/abs/2505.10182v1
Date: Thu, 15 May 2025 11:29:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-16 22:29:06.293509
Title: Mining Hidden Thoughts from Texts: Evaluating Continual Pretraining with Synthetic Data for LLM Reasoning
Title（参考訳）: テキストからの隠れた思考:LLM推論のための合成データによる連続的事前学習の評価
Authors: Yoichi Ishibashi, Taro Yano, Masafumi Oyamada,
Abstract要約: Reasoning CPTは、合成データを使用して、テキストの裏にある隠された思考過程を再構築する。解析の結果,Reasoning CPTはすべての評価領域におけるパフォーマンスを継続的に改善することがわかった。
参考スコア（独自算出の注目度）: 3.6117068575553595
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have demonstrated significant improvements in reasoning capabilities through supervised fine-tuning and reinforcement learning. However, when training reasoning models, these approaches are primarily applicable to specific domains such as mathematics and programming, which imposes fundamental constraints on the breadth and scalability of training data. In contrast, continual pretraining (CPT) offers the advantage of not requiring task-specific signals. Nevertheless, how to effectively synthesize training data for reasoning and how such data affect a wide range of domains remain largely unexplored. This study provides a detailed evaluation of Reasoning CPT, a form of CPT that uses synthetic data to reconstruct the hidden thought processes underlying texts, based on the premise that texts are the result of the author's thinking process. Specifically, we apply Reasoning CPT to Gemma2-9B using synthetic data with hidden thoughts derived from STEM and Law corpora, and compare it to standard CPT on the MMLU benchmark. Our analysis reveals that Reasoning CPT consistently improves performance across all evaluated domains. Notably, reasoning skills acquired in one domain transfer effectively to others; the performance gap with conventional methods widens as problem difficulty increases, with gains of up to 8 points on the most challenging problems. Furthermore, models trained with hidden thoughts learn to adjust the depth of their reasoning according to problem difficulty.
Abstract（参考訳）: 大規模言語モデル(LLM)は、教師付き微調整と強化学習によって推論能力を大幅に改善した。しかしながら、推論モデルをトレーニングする場合、これらのアプローチは主に数学やプログラミングのような特定の分野に適用され、トレーニングデータの幅と拡張性に根本的な制約が課される。対照的に、CPT(Continuous Pretraining)はタスク固有の信号を必要としない利点を提供する。それでも、推論のためのトレーニングデータを効果的に合成する方法や、そのようなデータが広範囲のドメインにどのように影響するかは、未解明のままである。本研究は、テキストが著者の思考過程の結果であるという前提に基づいて、合成データを用いてテキストの裏側にある隠された思考過程を再構築するCPTの一形態であるReasoning CPTを詳細に評価する。具体的には、STEMとLaw corporaから派生した隠れ思考を用いた合成データを用いて、Gemma2-9BにReasoning CPTを適用し、MMLUベンチマークの標準CPTと比較する。解析の結果,Reasoning CPTはすべての評価領域におけるパフォーマンスを継続的に改善することがわかった。特に、あるドメインの転送において得られた推論スキルが他者に対して効果的に獲得され、問題の難易度が増大するにつれて従来の手法のパフォーマンスギャップが拡大し、最も困難な問題に対して最大8ポイントの利得が得られた。さらに、隠された思考で訓練されたモデルは、問題の難易度に応じて推論の深さを調整することを学ぶ。

関連論文リスト

R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。推論駆動プロセスリワードモデリング(R-PRM)を提案する。 R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文参考訳（メタデータ） (2025-03-27T09:23:08Z)
Reasoning to Learn from Latent Thoughts [45.59740535714148]
そこで本研究では,テキスト生成プロセスの根底にある潜在的思考を明示的にモデル化し,推論することにより,事前学習データの効率を大幅に向上できることを示す。 1B LMは、少なくとも3回の反復でその性能をブートストラップし、生データに基づいてトレーニングされたベースラインを大幅に上回ることを示す。推論スケーリングとEMイテレーションのメリットは、データ制約付き事前トレーニングをスケールする新たな機会を示唆している。
論文参考訳（メタデータ） (2025-03-24T16:41:23Z)
The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。 UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文参考訳（メタデータ） (2025-03-04T18:56:03Z)
Advancing Mathematical Reasoning in Language Models: The Impact of Problem-Solving Data, Data Synthesis Methods, and Training Stages [13.377908992869814]
問題解決データは、一般的な数学的コーパスと比較してモデルの数学的能力を大幅に向上させる。本研究では, 効果的なデータ合成手法を同定し, チュータシップ増幅合成法が最高の性能を発揮することを示す。
論文参考訳（メタデータ） (2025-01-23T12:14:57Z)
Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文参考訳（メタデータ） (2024-11-29T18:58:22Z)
SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文参考訳（メタデータ） (2024-08-28T06:33:03Z)
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。 Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文参考訳（メタデータ） (2024-05-25T15:07:33Z)
Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文参考訳（メタデータ） (2023-10-10T09:20:14Z)
Investigating the Efficacy of Large Language Models in Reflective Assessment Methods through Chain of Thoughts Prompting [0.2552922646705803]
複雑な推論タスクにおけるLLMの習熟度を高める手段として、Chain of Thought(CoT)プロンプト法が提案されている。本研究の主な目的は、4つの言語モデルが3年制医学生の振り返りエッセイをいかに評価できるかを評価することである。
論文参考訳（メタデータ） (2023-09-30T06:25:27Z)
Soundness of Data-Aware Processes with Arithmetic Conditions [8.914271888521652]
データペトリネット(DPN)は、単純さと表現性のバランスをとる能力によって、人気が高まっている。データと制御フローの相互作用は、そのようなモデルの正しさ、特に音の良さ、決定的かつ困難さの確認を可能にする。算術データ条件に富んだDPNの音質を評価するための枠組みを提供する。
論文参考訳（メタデータ） (2022-03-28T14:46:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。