論文の概要: Keypoint-based Progressive Chain-of-Thought Distillation for LLMs
- arxiv url: http://arxiv.org/abs/2405.16064v1
- Date: Sat, 25 May 2024 05:27:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 01:19:52.427896
- Title: Keypoint-based Progressive Chain-of-Thought Distillation for LLMs
- Title(参考訳): LLMのキーポイント型プログレッシブ・オブ・サート蒸留
- Authors: Kaituo Feng, Changsheng Li, Xiaolu Zhang, Jun Zhou, Ye Yuan, Guoren Wang,
- Abstract要約: 思考の連鎖蒸留は、推論能力を大きな言語モデルからより小さな学生モデルに伝達する強力な技術である。
従来の手法では、学生はLLMによって生成されるステップバイステップの合理性を模倣する必要がある。
我々はこれらの問題に対処する統合フレームワークKPODを提案する。
- 参考スコア(独自算出の注目度): 46.53906673648466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-thought distillation is a powerful technique for transferring reasoning abilities from large language models (LLMs) to smaller student models. Previous methods typically require the student to mimic the step-by-step rationale produced by LLMs, often facing the following challenges: (i) Tokens within a rationale vary in significance, and treating them equally may fail to accurately mimic keypoint tokens, leading to reasoning errors. (ii) They usually distill knowledge by consistently predicting all the steps in a rationale, which falls short in distinguishing the learning order of step generation. This diverges from the human cognitive progression of starting with easy tasks and advancing to harder ones, resulting in sub-optimal outcomes. To this end, we propose a unified framework, called KPOD, to address these issues. Specifically, we propose a token weighting module utilizing mask learning to encourage accurate mimicry of keypoint tokens by the student during distillation. Besides, we develop an in-rationale progressive distillation strategy, starting with training the student to generate the final reasoning steps and gradually extending to cover the entire rationale. To accomplish this, a weighted token generation loss is proposed to assess step reasoning difficulty, and a value function is devised to schedule the progressive distillation by considering both step difficulty and question diversity. Extensive experiments on four reasoning benchmarks illustrate our KPOD outperforms previous methods by a large margin.
- Abstract(参考訳): 思考の連鎖蒸留は、大言語モデル(LLM)から小学生モデルへの推論能力を伝達する強力な技術である。
従来の手法では、学生はLLMが作り出すステップバイステップの合理性を模倣し、しばしば次の課題に直面します。
一 合理性内のトークンは、意味が異なり、その扱いが、キーポイントトークンを正確に模倣することに失敗し、誤りを推論することがある。
(二)通常は、段階生成の学習順序を区別するのに不足する合理的な全てのステップを一貫して予測することによって知識を蒸留する。
これは、簡単なタスクから始まり、より難しいタスクへと進む人間の認知の進歩から分岐し、結果として準最適結果をもたらす。
そこで本研究では,これらの問題に対処する統合フレームワークKPODを提案する。
具体的には, マスク学習を利用したトークン重み付けモジュールを提案し, 蒸留中の学生によるキーポイントトークンの正確な模倣を促進する。
さらに,本研究は,まず,学生が最終推論ステップを作成できるように訓練し,段階的に論理的根拠を網羅し,段階的に拡張する,段階的漸進的蒸留戦略を開発する。
これを実現するために、ステップ推論困難を評価するために重み付きトークン生成損失を提案し、ステップの難易度と問題多様性の両方を考慮して進行蒸留をスケジュールする値関数を考案した。
4つの推論ベンチマークに関する大規模な実験は、我々のKPODが従来の方法よりも大きなマージンで優れていることを示している。
関連論文リスト
- Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Beyond Imitation: Learning Key Reasoning Steps from Dual Chain-of-Thoughts in Reasoning Distillation [24.272384832200522]
我々はmistaktextbfE-textbfDriven key reasontextbfIng step distillatextbfTion (textbfEDIT)を提案する。
我々は、類似の推論経路を持つ2つのCoTsデータを生成するためのプロンプトを設計する。
実験は、ドメイン内およびドメイン外のベンチマーク推論データセットの両方でEDITの有効性を検証する。
論文 参考訳(メタデータ) (2024-05-30T06:32:11Z) - QCRD: Quality-guided Contrastive Rationale Distillation for Large Language Models [13.54030164748731]
本稿では,品質誘導型コントラスト的合理的蒸留法を推論能力学習のための一般手法として提案する。
肯定的な知識を学習するために、自己整合性を通して有理性を収集し、温度サンプリングによって生成されたLCMの有理性を見極める。
負の知識蒸留では、反復前の小さな言語モデル自体の温度サンプリングを用いて負の有理値を生成する。
論文 参考訳(メタデータ) (2024-05-14T13:07:10Z) - AlphaMath Almost Zero: process Supervision without process [6.318873143509028]
大規模言語モデル(LLM)は、複数の推論ステップを必要とする複雑な問題に悩まされる。
我々はモンテカルロ木探索(MCTS)フレームワークを利用することで、プロセスアノテーション(人間やGPTから)の必要性を回避できる革新的なアプローチを導入する。
提案手法はポリシーと価値モデルを反復的に訓練し,LLMの能力を活用している。
論文 参考訳(メタデータ) (2024-05-06T15:20:30Z) - Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing [61.98556945939045]
収集された軌道上でのDPO(Direct Preference Optimization)を通して計画に基づく推論を学習するフレームワークを提案する。
論理的推論ベンチマークの挑戦的な結果から,学習フレームワークの有効性が示された。
論文 参考訳(メタデータ) (2024-02-01T15:18:33Z) - Hessian Aware Low-Rank Perturbation for Order-Robust Continual Learning [19.850893012601638]
連続学習は、前のタスクから得た知識を忘れずに、一連のタスクを逐次学習することを目的としている。
本稿では,Hessian Aware Low-Rank Perturbationアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-26T01:44:01Z) - DetermLR: Augmenting LLM-based Logical Reasoning from Indeterminacy to Determinacy [76.58614128865652]
非決定性から決定性への進化として推論過程を再考する新しい視点であるDetermLRを提案する。
まず、既知の条件を次の2つのタイプに分類する: 決定的および不決定的前提 これは、推論プロセスのオール方向を提供し、不決定的データを段階的決定的洞察に変換する際のLCMを導く。
我々は、利用可能な施設の保存と抽出、推論メモリによる推論パスの自動化、そしてその後の推論ステップに関する歴史的推論の詳細を保存する。
論文 参考訳(メタデータ) (2023-10-28T10:05:51Z) - SCOTT: Self-Consistent Chain-of-Thought Distillation [68.40232422158569]
大規模言語モデル(LM)は、チェーン・オブ・シークレット・プロンプトを通じて予測のための自由テキスト論理を生成する。
そこで本研究では,教師モデルから,小規模で自己整合的なCoTモデルを学習するための忠実な知識蒸留法を提案する。
忠実蒸留を確実にするために,教師生成の合理性を用いて,反実的推論目的の学生LMを学習する。
論文 参考訳(メタデータ) (2023-05-03T03:47:00Z) - Meta Cyclical Annealing Schedule: A Simple Approach to Avoiding
Meta-Amortization Error [50.83356836818667]
循環型アニーリングスケジュールとMMD基準を用いた新しいメタレギュラー化目標を構築した。
実験の結果,本手法は標準的なメタ学習アルゴリズムよりもかなり優れていることがわかった。
論文 参考訳(メタデータ) (2020-03-04T04:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。