Fugu-MT 論文翻訳(概要): PaD: Program-aided Distillation Can Teach Small Models Reasoning Better than Chain-of-thought Fine-tuning

論文の概要: PaD: Program-aided Distillation Can Teach Small Models Reasoning Better than Chain-of-thought Fine-tuning

arxiv url: http://arxiv.org/abs/2305.13888v2
Date: Wed, 20 Mar 2024 08:37:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-21 23:07:03.692729
Title: PaD: Program-aided Distillation Can Teach Small Models Reasoning Better than Chain-of-thought Fine-tuning
Title（参考訳）: PaD: プログラムによる蒸留は、微調整よりも小さなモデルを学べる
Authors: Xuekai Zhu, Biqing Qi, Kaiyan Zhang, Xinwei Long, Zhouhan Lin, Bowen Zhou,
Abstract要約: 本稿では, 蒸留データの誤りを抑えるための推論プログラムを導入したPaD(Program-Aided Distillation)を提案する。算術的推論,記号的推論,一般能力に基づいてPaDを評価する。
参考スコア（独自算出の注目度）: 20.59775450213501
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While large language models (LLMs) excel in various natural language processing tasks, their huge size and the inaccessibility of parameters present challenges for practical deployment. Previous studies try to distill task-specific ability from LLMs to smaller models, using data synthesis and chain-of-thought (CoT) fine-tuning. However, synthetic CoT data often contains faulty reasoning, which deteriorates the quality of distillation, especially in reasoning capabilities. In this work, we propose Program-aided Distillation (PaD), which introduces reasoning programs to suppress the errors in distilled data, and thus achieves better distillation quality for reasoning tasks. In PaD, we utilize the reasoning program to substitute the CoT, allowing automated error checking of synthetic data. Further, through error injecting and further training, the small distilling model could iteratively self-refine the reasoning. Moreover, we conduct a step-wise beam search by step-by-step verifying to acquire more exact reasoning chains. We evaluate PaD on arithmetic reasoning, symbolic reasoning, and general ability. Experimental results demonstrate that smaller models using PaD can not only outperform certain LLMs~(e.g., LLaMA-1 13B) but also achieve strong improvement over baselines with a significantly smaller scale of parameters and data. The source code is publicly available at https://github.com/Xuekai-Zhu/pad.
Abstract（参考訳）: 大きな言語モデル(LLM)は、様々な自然言語処理タスクに優れていますが、その大きなサイズとパラメータのアクセシビリティは、実践的なデプロイメントの課題を示します。従来の研究では、データ合成とチェーン・オブ・シークレット(CoT)ファインチューニングを用いて、LLMからより小さなモデルにタスク固有の能力を抽出しようと試みていた。しかし, 合成CoTデータには, 蒸留品質の低下, 特に推理能力の低下などが生じている。本研究では, 蒸留データの誤りを抑えるための推論プログラムを導入するプログラム支援蒸留(PaD)を提案する。 PaDでは、この推論プログラムを用いてCoTを置換し、合成データの自動エラーチェックを可能にする。さらに, 誤り注入および更なる訓練により, 小さな蒸留モデルにより, 推論を反復的に自己再定義することが可能となった。さらに、より正確な推論チェーンを取得するために、ステップバイステップ検証によりステップワイズビームサーチを行う。算術的推論,記号的推論,一般能力に基づいてPaDを評価する。実験結果から, PaD を用いた小型モデルは, LLMs~(e g , LLaMA-1 13B) よりも優れるだけでなく, パラメータやデータのスケールが大幅に小さく, ベースラインよりも強力な改善が達成できることが示された。ソースコードはhttps://github.com/Xuekai-Zhu/padで公開されている。

関連論文リスト

The Challenge of Teaching Reasoning to LLMs Without RL or Distillation [31.973226821366325]
推論可能な言語モデルは、長く明示的なChain-of-Thoughtトレースを生成することで、様々な複雑なタスクにおいて最先端のパフォーマンスを達成する。我々は、プロンプトや最小限のチューニングのみを用いて、ベースモデルでCoTを誘導できるかどうかを問う。結果として得られたモデルは、はるかに大きなtexttQwen2.5-Math-72B-Instruct よりも優れており、いくつかの高品質な例が強力な推論能力を解き放つ可能性があることを示している。
論文参考訳（メタデータ） (2025-07-14T01:14:50Z)
TL;DR: Too Long, Do Re-weighting for Efficient LLM Reasoning Compression [55.37723860832064]
高度なデータアノテーションに依存しない動的比に基づくトレーニングパイプラインを提案する。我々は、DeepSeek-R1-Distill-7BとDeepSeek-R1-Distill-14Bのモデルと、様々な難易度を持つ様々なベンチマークのモデルに対するアプローチを検証する。
論文参考訳（メタデータ） (2025-06-03T09:23:41Z)
The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。 UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文参考訳（メタデータ） (2025-03-04T18:56:03Z)
Marco-o1 v2: Towards Widening The Distillation Bottleneck for Reasoning Models [39.22557129190619]
LRMの生成したデータに基づく蒸留は、より小さなモデルの推論能力を高めるための、単純かつ効果的な方法である。このボトルネックを軽減するために,モンテカルロ木探索を用いて木に基づくCoTデータを構築することを提案する。次に、構築したデータに基づいてSFTとRLを強化するために、Thoughts Length Balance, Fine-fine DPO, Joint Post-Training ObjectiveなどのCoT対応アプローチを利用する。
論文参考訳（メタデータ） (2025-03-03T12:17:36Z)
Unveiling Reasoning Thresholds in Language Models: Scaling, Fine-Tuning, and Interpretability through Attention Maps [3.8936716676293917]
本研究では,異なるモデルサイズと訓練データを持つデコーダのみの変換言語モデルのコンテキスト内学習能力について検討する。我々は,複数の質問応答におけるコモンセンス推論や帰納的推論といったタスクにおいて,推論性能が著しく向上する重要なパラメータしきい値(160億)を同定する。
論文参考訳（メタデータ） (2025-02-21T00:48:32Z)
LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters! [53.84130385074551]
大推論モデル(LRM)は、長いチェーン・オブ・シント(Long CoT)に従うことによって複雑な推論問題に取り組むまた,Large Language Model (LLM) は,データ効率の教師付き微調整 (SFT) とパラメータ効率の低い低ランク適応 (LoRA) により,Long CoT推論を効果的に学習できることを見出した。たった17kのCoTトレーニングサンプルで、Qwen2.5-32B-Instructモデルは、幅広い数学およびコーディングベンチマークで大幅に改善されている。
論文参考訳（メタデータ） (2025-02-11T08:48:48Z)
When More is Less: Understanding Chain-of-Thought Length in LLMs [53.77747102201451]
CoT推論は大規模言語モデル(LLM)の多段階推論能力を高めるしかし、ほとんどのモデルやタスクでは、CoT長の増加は一貫して推論精度の向上につながりますか? 本稿では, 推論ステップの数が増加するにつれて, 性能は向上するが, 最終的には低下する,というニュアンスな関係を観察する。
論文参考訳（メタデータ） (2025-02-11T05:28:59Z)
O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文参考訳（メタデータ） (2025-01-22T01:35:11Z)
Improving Mathematical Reasoning Capabilities of Small Language Models via Feedback-Driven Distillation [15.542737858152053]
大規模言語モデル(LLM)は例外的な推論能力を示し、様々なタスクで最先端のパフォーマンスを達成する。有望な解決策は知識蒸留であり、LLMがSmall Language Models (SLM)に推論機能を移行し、低リソースデバイスへのより広範なデプロイを可能にする。本研究では,SLMの数学的推論能力を高めるために,フィードバック駆動蒸留(FDD)フレームワークを提案する。
論文参考訳（メタデータ） (2024-11-22T03:12:39Z)
Beyond Imitation: Learning Key Reasoning Steps from Dual Chain-of-Thoughts in Reasoning Distillation [24.272384832200522]
我々はmistaktextbfE-textbfDriven key reasontextbfIng step distillatextbfTion (textbfEDIT)を提案する。我々は、類似の推論経路を持つ2つのCoTsデータを生成するためのプロンプトを設計する。実験は、ドメイン内およびドメイン外のベンチマーク推論データセットの両方でEDITの有効性を検証する。
論文参考訳（メタデータ） (2024-05-30T06:32:11Z)
Disperse-Then-Merge: Pushing the Limits of Instruction Tuning via Alignment Tax Reduction [75.25114727856861]
大規模言語モデル(LLM)は、スーパービジョンされた微調整プロセスの後半で劣化する傾向にある。この問題に対処するための単純な分散結合フレームワークを導入する。我々のフレームワークは、一連の標準知識と推論ベンチマークに基づいて、データキュレーションや正規化の訓練など、様々な高度な手法より優れています。
論文参考訳（メタデータ） (2024-05-22T08:18:19Z)
Can LLMs Separate Instructions From Data? And What Do We Even Mean By That? [60.50127555651554]
大規模言語モデル(LLM)は、多くの実用的なアプリケーションにおいて印象的な結果を示すが、基本的な安全性機能は欠如している。これにより、間接的なプロンプトインジェクションのような操作に脆弱になり、一般に安全クリティカルなタスクには適さない。モデル出力から計算可能な命令データ分離の形式的尺度と経験的変量を導入する。
論文参考訳（メタデータ） (2024-03-11T15:48:56Z)
Turning Dust into Gold: Distilling Complex Reasoning Capabilities from LLMs by Leveraging Negative Data [15.088675135566646]
大規模言語モデル(LLM)は、様々な推論タスクでうまく機能しているが、それらのアクセシビリティと多くのパラメータは、実際に広範囲の応用を妨げる。正の試料以外の負の試料でLLMを蒸留するモデル特殊化フレームワークを提案する。我々は, LLMの蒸留における負データの役割を示すために, 算術的推論タスクにまたがる広範な実験を行った。
論文参考訳（メタデータ） (2023-12-20T08:28:36Z)
Uncertainty-aware Parameter-Efficient Self-training for Semi-supervised Language Understanding [38.11411155621616]
我々は,主に半教師あり学習の手法として,自己学習について研究している。我々は,新しい不確かさを意識した自己学習フレームワークであるUPETを紹介する。 UPETは性能と効率の面で大幅に向上したことを示す。
論文参考訳（メタデータ） (2023-10-19T02:18:29Z)
Guiding Language Model Reasoning with Planning Tokens [122.43639723387516]
大規模言語モデル(LLM)は、最近、複雑な推論タスクを実行する能力に対して、かなりの関心を集めている。より構造的なチェーン・オブ・シークレット・ステップの創出を促す階層的な生成手法を提案する。提案手法では、トレーニング可能なパラメータ(0.001%)の無視可能な増加が必要であり、完全な微調整か、よりパラメータ効率の良いスキームで適用することができる。
論文参考訳（メタデータ） (2023-10-09T13:29:37Z)
Impossible Distillation: from Low-Quality Model to High-Quality Dataset & Model for Summarization and Paraphrasing [59.58984194238254]
本稿では,パラフレーズと文要約のための新しい枠組みであるImpossible Distillationを提案する。極端に大規模な教師モデルに依存した先行研究とは異なり、パラフラスティックな近在性と事前学習されたLMを仮説化し、検証する。これらの部分空間から世代を同定して蒸留することにより、インポッシブル蒸留は、GPT2スケールのLMでも高品質なデータセットとモデルを生成する。
論文参考訳（メタデータ） (2023-05-26T05:19:24Z)
Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。 4つのNLPベンチマークで3つの結果を得た。
論文参考訳（メタデータ） (2023-05-03T17:50:56Z)
Distilling Reasoning Capabilities into Smaller Language Models [83.66051257039763]
思考の連鎖(CoT)のようなステップバイステップの推論アプローチは、大規模言語モデルにおける推論能力の誘導に非常に効果的であることが証明されている。しかし、CoTアプローチの成功は基本的にモデルのサイズに結びついており、CoTを機能させるためには数十億のパラメータスケールモデルが必要であることが多い。本研究では,大規模モデルのCoT推論能力を段階的に活用し,これらの能力をより小さなモデルに蒸留する知識蒸留手法を提案する。
論文参考訳（メタデータ） (2022-12-01T00:39:56Z)
Can Pretext-Based Self-Supervised Learning Be Boosted by Downstream Data? A Theoretical Analysis [12.188482172898656]
pretext-based self-supervised learningは、ラベルのないデータに対して手作りのpretextタスクを通じて意味表現を学ぶことを目的としている。 citetlee 2020predictingは、前提文に基づく自己教師付き学習が条件付き独立(ci)下で下流タスクのサンプル複雑性を効果的に低減できることを証明する。 CI条件を保持するために,学習可能な関数を入力に適用するアイデアを検討する。
論文参考訳（メタデータ） (2021-03-05T09:53:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。