論文の概要: MCC-KD: Multi-CoT Consistent Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2310.14747v3
- Date: Wed, 20 Dec 2023 06:50:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 19:04:15.450505
- Title: MCC-KD: Multi-CoT Consistent Knowledge Distillation
- Title(参考訳): mcc-kd:マルチcot一貫性のある知識蒸留
- Authors: Hongzhan Chen, Siyue Wu, Xiaojun Quan, Rui Wang, Ming Yan, Ji Zhang
- Abstract要約: そこで我々は,MCC-KD (Multi-CoT Consistent Knowledge Distillation) を提案する。
MCC-KDでは、各質問に対して複数の合理性を生成し、対応する予測の一貫性を強制する。
異なるモデルアーキテクチャと様々なモデルスケールを用いたMCC-KDの有効性について検討する。
- 参考スコア(独自算出の注目度): 39.327560600207626
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have showcased remarkable capabilities in
complex reasoning through chain of thought (CoT) prompting. Recently, there has
been a growing interest in transferring these reasoning abilities from LLMs to
smaller models. However, achieving both the diversity and consistency in
rationales presents a challenge. In this paper, we focus on enhancing these two
aspects and propose Multi-CoT Consistent Knowledge Distillation (MCC-KD) to
efficiently distill the reasoning capabilities. In MCC-KD, we generate multiple
rationales for each question and enforce consistency among the corresponding
predictions by minimizing the bidirectional KL-divergence between the answer
distributions. We investigate the effectiveness of MCC-KD with different model
architectures (LLaMA/FlanT5) and various model scales (3B/7B/11B/13B) on both
mathematical reasoning and commonsense reasoning benchmarks. The empirical
results not only confirm MCC-KD's superior performance on in-distribution
datasets but also highlight its robust generalization ability on
out-of-distribution datasets.
- Abstract(参考訳): 大規模言語モデル(LLM)は、思考の連鎖(CoT)による複雑な推論において顕著な能力を示した。
近年,LLMから小型モデルへの推論能力の移転への関心が高まっている。
しかし、合理化における多様性と一貫性の両立は困難である。
本稿では,これらの2つの側面の強化に焦点をあて,その推論能力の効率向上を図るために,MCC-KD(Multi-CoT Consistent Knowledge Distillation)を提案する。
MCC-KDでは,各質問に対して複数の有理数を生成し,回答分布間の双方向KL分割を最小化することにより,対応する予測間の一貫性を強制する。
本研究では,様々なモデルアーキテクチャ (LLaMA/FlanT5) と様々なモデルスケール (3B/7B/11B/13B) によるMCC-KDの有効性について検討した。
実験の結果は、MCC-KDの分布内データセットにおける優れた性能を確認するだけでなく、分布外データセットに対する堅牢な一般化能力を強調している。
関連論文リスト
- Mentor-KD: Making Small Language Models Better Multi-step Reasoners [15.159415340059388]
我々は,LLMのマルチステップ推論能力をより小さいLMに効果的に蒸留するメンター-KDを提案する。
我々は、メンタ、中間サイズのタスク固有の微調整モデルを利用して、追加のCoTアノテーションを強化します。
我々は広範囲な実験を行い、メンターKDの有効性を様々なモデルや複雑な推論タスクで確認する。
論文 参考訳(メタデータ) (2024-10-11T17:53:27Z) - Enhancing Knowledge Distillation of Large Language Models through Efficient Multi-Modal Distribution Alignment [10.104085497265004]
本稿では,教師モデルと学生モデルとのピーク予測の整合性を促進するために,ランキング損失に基づく知識蒸留(RLKD)を提案する。
提案手法は,教師モデルのマルチモーダル分布をよりよく学習し,様々な下流タスクにおいて顕著な性能向上をもたらす。
論文 参考訳(メタデータ) (2024-09-19T08:06:42Z) - Correlation-Decoupled Knowledge Distillation for Multimodal Sentiment Analysis with Incomplete Modalities [16.69453837626083]
本稿では,Multimodal Sentiment Analysis (MSA)タスクのための相関分離型知識蒸留(CorrKD)フレームワークを提案する。
本稿では, クロスサンプル相関を含む包括的知識を伝達し, 欠落した意味論を再構築するサンプルレベルのコントラスト蒸留機構を提案する。
我々は,学生ネットワークの感情決定境界を最適化するために,応答不整合蒸留方式を設計する。
論文 参考訳(メタデータ) (2024-04-25T09:35:09Z) - ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting [124.69672273754144]
CoT(Chain-of-Thought)のプロンプトにより,大規模言語モデル(LLM)の推論能力が向上する
既存のCoTアプローチは通常、単純な推論タスクに重点を置いており、結果として低品質で一貫性のないCoTプロンプトをもたらす。
優れたCoTプロンプトの自動生成のための新しいフレームワークであるCoTGeniusを紹介する。
論文 参考訳(メタデータ) (2024-03-21T11:34:26Z) - Understanding the Robustness of Multi-modal Contrastive Learning to Distribution Shift [14.641747166801133]
CLIPのようなマルチモーダルな対照的な学習アプローチは、分散シフトに対して堅牢な学習表現において、顕著な成功を収めている。
MMCLの強靭性の背後にある2つのメカニズムを同定する。
理論的には、リッチキャプションを用いたロバストネスの利点を実証し、キャプション内の様々な種類の詳細を注釈付けする効果を探求する。
論文 参考訳(メタデータ) (2023-10-08T02:25:52Z) - Leveraging Diffusion Disentangled Representations to Mitigate Shortcuts
in Underspecified Visual Tasks [92.32670915472099]
拡散確率モデル(DPM)を用いた合成カウンターファクトの生成を利用したアンサンブルの多様化フレームワークを提案する。
拡散誘導型分散化は,データ収集を必要とする従来の手法に匹敵するアンサンブル多様性を達成し,ショートカットからの注意を回避できることを示す。
論文 参考訳(メタデータ) (2023-10-03T17:37:52Z) - Chain-of-Thought Prompt Distillation for Multimodal Named Entity
Recognition and Multimodal Relation Extraction [8.169359626365619]
思考のテキストチェーン(CoT) -- 中間推論ステップのシーケンスを生成します。
本稿では,大規模言語モデルからのコモンセンス推論能力を同化するための新しい条件付きプロンプト蒸留法を提案する。
我々のアプローチは最先端の精度を達成し、解釈可能性、データ効率、ドメイン間の一般化に関する多くの利点を示す。
論文 参考訳(メタデータ) (2023-06-25T04:33:56Z) - Multimodal Chain-of-Thought Reasoning in Language Models [94.70184390935661]
言語(テキスト)と視覚(画像)のモダリティを2段階のフレームワークに組み込んだマルチモーダルCoTを提案する。
その結果,ScienceQA と A-OKVQA のベンチマークは,提案手法の有効性を示した。
論文 参考訳(メタデータ) (2023-02-02T07:51:19Z) - Trusted Multi-View Classification with Dynamic Evidential Fusion [73.35990456162745]
信頼型マルチビュー分類(TMC)と呼ばれる新しいマルチビュー分類アルゴリズムを提案する。
TMCは、様々な視点をエビデンスレベルで動的に統合することで、マルチビュー学習のための新しいパラダイムを提供する。
理論的および実験的結果は、精度、堅牢性、信頼性において提案されたモデルの有効性を検証した。
論文 参考訳(メタデータ) (2022-04-25T03:48:49Z) - KDExplainer: A Task-oriented Attention Model for Explaining Knowledge
Distillation [59.061835562314066]
KDExplainerと呼ばれる新しいタスク指向の注意モデルを導入し、バニラKDの基礎となる作業メカニズムを明らかにします。
また、仮想注意モジュール(VAM)と呼ばれるポータブルツールを導入し、さまざまなディープニューラルネットワーク(DNN)とシームレスに統合し、KDの下でのパフォーマンスを向上させることができます。
論文 参考訳(メタデータ) (2021-05-10T08:15:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。