論文の概要: QCRD: Quality-guided Contrastive Rationale Distillation for Large Language Models
- arxiv url: http://arxiv.org/abs/2405.13014v1
- Date: Tue, 14 May 2024 13:07:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 02:58:21.276464
- Title: QCRD: Quality-guided Contrastive Rationale Distillation for Large Language Models
- Title(参考訳): QCRD:大規模言語モデルにおける品質誘導型コントラストレナール蒸留
- Authors: Wei Wang, Zhaowei Li, Qi Xu, Yiqing Cai, Hang Song, Qi Qi, Ran Zhou, Zhida Huang, Tao Wang, Li Xiao,
- Abstract要約: 本稿では,品質誘導型コントラスト的合理的蒸留法を推論能力学習のための一般手法として提案する。
肯定的な知識を学習するために、自己整合性を通して有理性を収集し、温度サンプリングによって生成されたLCMの有理性を見極める。
負の知識蒸留では、反復前の小さな言語モデル自体の温度サンプリングを用いて負の有理値を生成する。
- 参考スコア(独自算出の注目度): 13.54030164748731
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying large language models (LLMs) poses challenges in terms of resource limitations and inference efficiency. To address these challenges, recent research has focused on using smaller task-specific language models, which are enhanced by distilling the knowledge rationales generated by LLMs. However, previous works mostly emphasize the effectiveness of positive knowledge, while overlooking the knowledge noise and the exploration of negative knowledge. In this paper, we first propose a general approach called quality-guided contrastive rationale distillation for reasoning capacity learning, considering contrastive learning perspectives. For the learning of positive knowledge, we collect positive rationales through self-consistency to denoise the LLM rationales generated by temperature sampling. For the negative knowledge distillation, we generate negative rationales using temperature sampling for the iteration-before smaller language models themselves. Finally, a contrastive loss is designed to better distill the positive and negative rationales into the smaller language model, where an online-update discriminator is used to judge the qualities of rationales and assign weights for better optimizing the training process. Through extensive experiments on multiple reasoning tasks, we demonstrate that our method consistently outperforms the previous distillation methods and produces higher-quality rationales.
- Abstract(参考訳): 大きな言語モデル(LLM)のデプロイは、リソースの制限と推論効率の面で課題を生じさせる。
これらの課題に対処するために、近年の研究では、LLMが生み出す知識の合理性を蒸留することによって強化された、より小さなタスク特化言語モデルの使用に焦点を当てている。
しかし、従来の研究は主に肯定的な知識の有効性を強調し、知識ノイズと否定的な知識の探索を見越している。
本稿では, コントラスト学習の観点から, 品質誘導型コントラスト論理蒸留による推論能力学習の一般的な手法を提案する。
肯定的知識を学習するために,自己整合性を通じて正の有理性を収集し,温度サンプリングによって生じるLCMの有理性に悪影響を及ぼす。
負の知識蒸留では、反復前の小さな言語モデル自体の温度サンプリングを用いて負の有理値を生成する。
最後に、比較的損失は、正と負の有理をより小さな言語モデルによりよく蒸留するように設計され、そこでは、オンライン更新判別器を使用して、有理の質を判断し、トレーニングプロセスをより最適化するために重みを割り当てる。
複数の推論タスクに関する広範な実験を通じて,提案手法が従来の蒸留法を一貫して上回り,高品質な理性を生み出すことを実証した。
関連論文リスト
- LINKED: Eliciting, Filtering and Integrating Knowledge in Large Language Model for Commonsense Reasoning [21.12539851761666]
大規模言語モデル(LLM)は、知識集約的なタスクにおけるパフォーマンスの低下を示すことがある。
大規模言語モデル(LINKED)における知識の抽出,フィルタリング,統合という新しい手法を提案する。
2つの複雑なコモンセンス推論ベンチマークに関する総合的な実験により、我々の手法はSOTAベースライン(最大9.0%の精度向上)を上回った。
論文 参考訳(メタデータ) (2024-10-12T14:12:22Z) - Learning from Committee: Reasoning Distillation from a Mixture of Teachers with Peer-Review [11.756344944226495]
ピアリビュー(FAIR)による新しいフォールト・アウェア蒸留法を提案する。
本手法では, 教師から金の合理性を得る代わりに, 生徒の過ちを特定・説明するよう教師に求めている。
論文 参考訳(メタデータ) (2024-10-04T17:59:41Z) - FIRST: Teach A Reliable Large Language Model Through Efficient Trustworthy Distillation [29.606646251624923]
微調整は「微調整による誤校正」により、まだ満足のいく信頼性には程遠い
本稿では,教師の知識のごく一部を有効活用して,信頼性の高い言語モデルを低コストで得るための信頼に値する蒸留(FIRST)を提案する。
実験の結果, 精度が2.3%, 誤校正率が10%以下となる手法の有効性が示された。
論文 参考訳(メタデータ) (2024-08-22T07:31:00Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。
その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。
過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - ELAD: Explanation-Guided Large Language Models Active Distillation [16.243249111524403]
LLM(Large Language Models)のデプロイメントと適用は、そのメモリ非効率性、計算要求、API推論の高コストによって妨げられている。
LLMの能力をより小さなモデルに伝達する伝統的な蒸留法は、知識が十分に伝達されているかどうかを判断できないことが多い。
本稿では,アノテーションコストとモデル性能のバランスを最適化するために,アクティブラーニング戦略を用いた説明誘導型ELAD(Explaination-Guided LLMs Active Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-20T15:47:59Z) - SCOTT: Self-Consistent Chain-of-Thought Distillation [68.40232422158569]
大規模言語モデル(LM)は、チェーン・オブ・シークレット・プロンプトを通じて予測のための自由テキスト論理を生成する。
そこで本研究では,教師モデルから,小規模で自己整合的なCoTモデルを学習するための忠実な知識蒸留法を提案する。
忠実蒸留を確実にするために,教師生成の合理性を用いて,反実的推論目的の学生LMを学習する。
論文 参考訳(メタデータ) (2023-05-03T03:47:00Z) - NoiER: An Approach for Training more Reliable Fine-TunedDownstream Task
Models [54.184609286094044]
補助モデルと付加データなしで問題を解くための学習パラダイムとして,ノイズエントロピー正規化(NoiER)を提案する。
提案手法は,従来の微調整モデルと比較して平均55%改善した。
論文 参考訳(メタデータ) (2021-08-29T06:58:28Z) - Contrastive Learning for Debiased Candidate Generation in Large-Scale
Recommender Systems [84.3996727203154]
コントラスト損失の一般的な選択は、逆確率重み付けによる露光バイアスの低減と等価であることを示す。
我々はCLRecをさらに改良し、マルチCLRecを提案する。
提案手法は,少なくとも4ヶ月のオンラインA/Bテストとオフライン分析が実施され,大幅に改善されている。
論文 参考訳(メタデータ) (2020-05-20T08:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。