論文の概要: PaD: Program-aided Distillation Specializes Large Models in Reasoning
- arxiv url: http://arxiv.org/abs/2305.13888v1
- Date: Tue, 23 May 2023 10:11:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 17:07:35.425559
- Title: PaD: Program-aided Distillation Specializes Large Models in Reasoning
- Title(参考訳): PaD:大規模な推論モデルに特化したプログラム支援蒸留
- Authors: Xuekai Zhu, Biqing Qi, Kaiyan Zhang, Xingwei Long, Bowen Zhou
- Abstract要約: 本稿では,大規模言語モデル (LLM) を蒸留して推論タスクの専門的な小モデルを得るプログラム支援蒸留(PaD)を提案する。
PaDでは、プログラム支援推論による特殊モデルを強化し、自動エラーチェックによる欠陥推論ステップの克服を支援する。
- 参考スコア(独自算出の注目度): 20.277018044590953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) excel in several natural language
processing tasks, their size and inaccessibility present challenges for
extensive practical application. Previous studies acquire specialized skills
through distillation on LLMs, which result in trading generic abilities, called
model specialization. As for reasoning ability, chain-of-thought was
synthesized to subsequent distillation. However, due to hallucination,
synthetic chain-of-thought from LLMs contains faulty reasoning. These incorrect
reasoning steps damage the reasoning capability. To tackle above issues, we
propose Program-aided Distillation (PaD), which distills LLMs to obtain
specialized small models in reasoning tasks. In PaD, we strengthen specialized
models with program-aided reasoning, and help them overcome faulty reasoning
steps with automated error checking. Experimental results demonstrate that, on
the GSM8K benchmark, a 0.06B model using PaD can not only outperform certain
LLMs (e.g., LLaMA), but also achieves a 10% improvement over baselines with a
significantly smaller scale of parameters and data. Data pruning analysis
reveals that PaD possesses higher training efficiency.
- Abstract(参考訳): 大規模言語モデル(LLM)はいくつかの自然言語処理タスクに優れていますが、そのサイズとアクセシビリティは広範な実践的応用の課題を示します。
以前の研究ではllmの蒸留によって特殊スキルを取得しており、これはモデル特殊化と呼ばれる汎用能力の取引に繋がる。
推理能力としては、後続の蒸留に連鎖して合成した。
しかし、幻覚のため、LSMsの合成鎖は不完全な推論を含んでいる。
これらの誤った推論ステップは推論能力を損なう。
そこで本研究では,llmを蒸留し,推論タスクにおいて特殊小モデルを得るプログラム支援蒸留(pad)を提案する。
PaDでは、プログラム支援推論による特殊モデルを強化し、自動エラーチェックによる欠陥推論ステップの克服を支援する。
実験の結果、gsm8kベンチマークでは、padを用いた0.06bモデルは特定のllm(例えばllama)よりも優れるだけでなく、パラメータやデータのスケールがかなり小さいベースラインよりも10%改善できることがわかった。
データプルーニング分析により、padはトレーニング効率が高いことが判明した。
関連論文リスト
- LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters! [53.84130385074551]
大推論モデル(LRM)は、長いチェーン・オブ・シント(Long CoT)に従うことによって複雑な推論問題に取り組む
また,Large Language Model (LLM) は,データ効率の教師付き微調整 (SFT) とパラメータ効率の低い低ランク適応 (LoRA) により,Long CoT推論を効果的に学習できることを見出した。
たった17kのCoTトレーニングサンプルで、Qwen2.5-32B-Instructモデルは、幅広い数学およびコーディングベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2025-02-11T08:48:48Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [53.77747102201451]
CoT推論は大規模言語モデル(LLM)の多段階推論能力を高める
しかし、ほとんどのモデルやタスクでは、CoT長の増加は一貫して推論精度の向上につながりますか?
本稿では, 推論ステップの数が増加するにつれて, 性能は向上するが, 最終的には低下する,というニュアンスな関係を観察する。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。
私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (2025-01-22T01:35:11Z) - Beyond Imitation: Learning Key Reasoning Steps from Dual Chain-of-Thoughts in Reasoning Distillation [24.272384832200522]
我々はmistaktextbfE-textbfDriven key reasontextbfIng step distillatextbfTion (textbfEDIT)を提案する。
我々は、類似の推論経路を持つ2つのCoTsデータを生成するためのプロンプトを設計する。
実験は、ドメイン内およびドメイン外のベンチマーク推論データセットの両方でEDITの有効性を検証する。
論文 参考訳(メタデータ) (2024-05-30T06:32:11Z) - Disperse-Then-Merge: Pushing the Limits of Instruction Tuning via Alignment Tax Reduction [75.25114727856861]
大規模言語モデル(LLM)は、スーパービジョンされた微調整プロセスの後半で劣化する傾向にある。
この問題に対処するための単純な分散結合フレームワークを導入する。
我々のフレームワークは、一連の標準知識と推論ベンチマークに基づいて、データキュレーションや正規化の訓練など、様々な高度な手法より優れています。
論文 参考訳(メタデータ) (2024-05-22T08:18:19Z) - Can LLMs Separate Instructions From Data? And What Do We Even Mean By That? [60.50127555651554]
大規模言語モデル(LLM)は、多くの実用的なアプリケーションにおいて印象的な結果を示すが、基本的な安全性機能は欠如している。
これにより、間接的なプロンプトインジェクションのような操作に脆弱になり、一般に安全クリティカルなタスクには適さない。
モデル出力から計算可能な命令データ分離の形式的尺度と経験的変量を導入する。
論文 参考訳(メタデータ) (2024-03-11T15:48:56Z) - Turning Dust into Gold: Distilling Complex Reasoning Capabilities from
LLMs by Leveraging Negative Data [15.088675135566646]
大規模言語モデル(LLM)は、様々な推論タスクでうまく機能しているが、それらのアクセシビリティと多くのパラメータは、実際に広範囲の応用を妨げる。
正の試料以外の負の試料でLLMを蒸留するモデル特殊化フレームワークを提案する。
我々は, LLMの蒸留における負データの役割を示すために, 算術的推論タスクにまたがる広範な実験を行った。
論文 参考訳(メタデータ) (2023-12-20T08:28:36Z) - Uncertainty-aware Parameter-Efficient Self-training for Semi-supervised
Language Understanding [38.11411155621616]
我々は,主に半教師あり学習の手法として,自己学習について研究している。
我々は,新しい不確かさを意識した自己学習フレームワークであるUPETを紹介する。
UPETは性能と効率の面で大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-10-19T02:18:29Z) - Distilling Reasoning Capabilities into Smaller Language Models [83.66051257039763]
思考の連鎖(CoT)のようなステップバイステップの推論アプローチは、大規模言語モデルにおける推論能力の誘導に非常に効果的であることが証明されている。
しかし、CoTアプローチの成功は基本的にモデルのサイズに結びついており、CoTを機能させるためには数十億のパラメータスケールモデルが必要であることが多い。
本研究では,大規模モデルのCoT推論能力を段階的に活用し,これらの能力をより小さなモデルに蒸留する知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-12-01T00:39:56Z) - Can Pretext-Based Self-Supervised Learning Be Boosted by Downstream
Data? A Theoretical Analysis [12.188482172898656]
pretext-based self-supervised learningは、ラベルのないデータに対して手作りのpretextタスクを通じて意味表現を学ぶことを目的としている。
citetlee 2020predictingは、前提文に基づく自己教師付き学習が条件付き独立(ci)下で下流タスクのサンプル複雑性を効果的に低減できることを証明する。
CI条件を保持するために,学習可能な関数を入力に適用するアイデアを検討する。
論文 参考訳(メタデータ) (2021-03-05T09:53:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。