論文の概要: PaD: Program-aided Distillation Specializes Large Models in Reasoning
- arxiv url: http://arxiv.org/abs/2305.13888v1
- Date: Tue, 23 May 2023 10:11:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 17:07:35.425559
- Title: PaD: Program-aided Distillation Specializes Large Models in Reasoning
- Title(参考訳): PaD:大規模な推論モデルに特化したプログラム支援蒸留
- Authors: Xuekai Zhu, Biqing Qi, Kaiyan Zhang, Xingwei Long, Bowen Zhou
- Abstract要約: 本稿では,大規模言語モデル (LLM) を蒸留して推論タスクの専門的な小モデルを得るプログラム支援蒸留(PaD)を提案する。
PaDでは、プログラム支援推論による特殊モデルを強化し、自動エラーチェックによる欠陥推論ステップの克服を支援する。
- 参考スコア(独自算出の注目度): 20.277018044590953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) excel in several natural language
processing tasks, their size and inaccessibility present challenges for
extensive practical application. Previous studies acquire specialized skills
through distillation on LLMs, which result in trading generic abilities, called
model specialization. As for reasoning ability, chain-of-thought was
synthesized to subsequent distillation. However, due to hallucination,
synthetic chain-of-thought from LLMs contains faulty reasoning. These incorrect
reasoning steps damage the reasoning capability. To tackle above issues, we
propose Program-aided Distillation (PaD), which distills LLMs to obtain
specialized small models in reasoning tasks. In PaD, we strengthen specialized
models with program-aided reasoning, and help them overcome faulty reasoning
steps with automated error checking. Experimental results demonstrate that, on
the GSM8K benchmark, a 0.06B model using PaD can not only outperform certain
LLMs (e.g., LLaMA), but also achieves a 10% improvement over baselines with a
significantly smaller scale of parameters and data. Data pruning analysis
reveals that PaD possesses higher training efficiency.
- Abstract(参考訳): 大規模言語モデル(LLM)はいくつかの自然言語処理タスクに優れていますが、そのサイズとアクセシビリティは広範な実践的応用の課題を示します。
以前の研究ではllmの蒸留によって特殊スキルを取得しており、これはモデル特殊化と呼ばれる汎用能力の取引に繋がる。
推理能力としては、後続の蒸留に連鎖して合成した。
しかし、幻覚のため、LSMsの合成鎖は不完全な推論を含んでいる。
これらの誤った推論ステップは推論能力を損なう。
そこで本研究では,llmを蒸留し,推論タスクにおいて特殊小モデルを得るプログラム支援蒸留(pad)を提案する。
PaDでは、プログラム支援推論による特殊モデルを強化し、自動エラーチェックによる欠陥推論ステップの克服を支援する。
実験の結果、gsm8kベンチマークでは、padを用いた0.06bモデルは特定のllm(例えばllama)よりも優れるだけでなく、パラメータやデータのスケールがかなり小さいベースラインよりも10%改善できることがわかった。
データプルーニング分析により、padはトレーニング効率が高いことが判明した。
関連論文リスト
- Improving Mathematical Reasoning Capabilities of Small Language Models via Feedback-Driven Distillation [15.542737858152053]
大規模言語モデル(LLM)は例外的な推論能力を示し、様々なタスクで最先端のパフォーマンスを達成する。
有望な解決策は知識蒸留であり、LLMがSmall Language Models (SLM)に推論機能を移行し、低リソースデバイスへのより広範なデプロイを可能にする。
本研究では,SLMの数学的推論能力を高めるために,フィードバック駆動蒸留(FDD)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T03:12:39Z) - Beyond Imitation: Learning Key Reasoning Steps from Dual Chain-of-Thoughts in Reasoning Distillation [24.272384832200522]
我々はmistaktextbfE-textbfDriven key reasontextbfIng step distillatextbfTion (textbfEDIT)を提案する。
我々は、類似の推論経路を持つ2つのCoTsデータを生成するためのプロンプトを設計する。
実験は、ドメイン内およびドメイン外のベンチマーク推論データセットの両方でEDITの有効性を検証する。
論文 参考訳(メタデータ) (2024-05-30T06:32:11Z) - Disperse-Then-Merge: Pushing the Limits of Instruction Tuning via Alignment Tax Reduction [75.25114727856861]
大規模言語モデル(LLM)は、スーパービジョンされた微調整プロセスの後半で劣化する傾向にある。
この問題に対処するための単純な分散結合フレームワークを導入する。
我々のフレームワークは、一連の標準知識と推論ベンチマークに基づいて、データキュレーションや正規化の訓練など、様々な高度な手法より優れています。
論文 参考訳(メタデータ) (2024-05-22T08:18:19Z) - Can LLMs Separate Instructions From Data? And What Do We Even Mean By That? [60.50127555651554]
大規模言語モデル(LLM)は、多くの実用的なアプリケーションにおいて印象的な結果を示すが、基本的な安全性機能は欠如している。
これにより、間接的なプロンプトインジェクションのような操作に脆弱になり、一般に安全クリティカルなタスクには適さない。
モデル出力から計算可能な命令データ分離の形式的尺度と経験的変量を導入する。
論文 参考訳(メタデータ) (2024-03-11T15:48:56Z) - Turning Dust into Gold: Distilling Complex Reasoning Capabilities from
LLMs by Leveraging Negative Data [15.088675135566646]
大規模言語モデル(LLM)は、様々な推論タスクでうまく機能しているが、それらのアクセシビリティと多くのパラメータは、実際に広範囲の応用を妨げる。
正の試料以外の負の試料でLLMを蒸留するモデル特殊化フレームワークを提案する。
我々は, LLMの蒸留における負データの役割を示すために, 算術的推論タスクにまたがる広範な実験を行った。
論文 参考訳(メタデータ) (2023-12-20T08:28:36Z) - Uncertainty-aware Parameter-Efficient Self-training for Semi-supervised
Language Understanding [38.11411155621616]
我々は,主に半教師あり学習の手法として,自己学習について研究している。
我々は,新しい不確かさを意識した自己学習フレームワークであるUPETを紹介する。
UPETは性能と効率の面で大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-10-19T02:18:29Z) - Guiding Language Model Reasoning with Planning Tokens [122.43639723387516]
大規模言語モデル(LLM)は、最近、複雑な推論タスクを実行する能力に対して、かなりの関心を集めている。
より構造的なチェーン・オブ・シークレット・ステップの創出を促す階層的な生成手法を提案する。
提案手法では、トレーニング可能なパラメータ(0.001%)の無視可能な増加が必要であり、完全な微調整か、よりパラメータ効率の良いスキームで適用することができる。
論文 参考訳(メタデータ) (2023-10-09T13:29:37Z) - Impossible Distillation: from Low-Quality Model to High-Quality Dataset & Model for Summarization and Paraphrasing [59.58984194238254]
本稿では,パラフレーズと文要約のための新しい枠組みであるImpossible Distillationを提案する。
極端に大規模な教師モデルに依存した先行研究とは異なり、パラフラスティックな近在性と事前学習されたLMを仮説化し、検証する。
これらの部分空間から世代を同定して蒸留することにより、インポッシブル蒸留は、GPT2スケールのLMでも高品質なデータセットとモデルを生成する。
論文 参考訳(メタデータ) (2023-05-26T05:19:24Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z) - Distilling Reasoning Capabilities into Smaller Language Models [83.66051257039763]
思考の連鎖(CoT)のようなステップバイステップの推論アプローチは、大規模言語モデルにおける推論能力の誘導に非常に効果的であることが証明されている。
しかし、CoTアプローチの成功は基本的にモデルのサイズに結びついており、CoTを機能させるためには数十億のパラメータスケールモデルが必要であることが多い。
本研究では,大規模モデルのCoT推論能力を段階的に活用し,これらの能力をより小さなモデルに蒸留する知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-12-01T00:39:56Z) - Can Pretext-Based Self-Supervised Learning Be Boosted by Downstream
Data? A Theoretical Analysis [12.188482172898656]
pretext-based self-supervised learningは、ラベルのないデータに対して手作りのpretextタスクを通じて意味表現を学ぶことを目的としている。
citetlee 2020predictingは、前提文に基づく自己教師付き学習が条件付き独立(ci)下で下流タスクのサンプル複雑性を効果的に低減できることを証明する。
CI条件を保持するために,学習可能な関数を入力に適用するアイデアを検討する。
論文 参考訳(メタデータ) (2021-03-05T09:53:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。