論文の概要: MCC-KD: Multi-CoT Consistent Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2310.14747v2
- Date: Tue, 24 Oct 2023 01:43:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-10-25 11:12:03.541562
- Title: MCC-KD: Multi-CoT Consistent Knowledge Distillation
- Title(参考訳): mcc-kd:マルチcot一貫性のある知識蒸留
- Authors: Hongzhan Chen, Siyue Wu, Xiaojun Quan, Rui Wang, Ming Yan, Ji Zhang
- Abstract要約: そこで我々は,MCC-KD (Multi-CoT Consistent Knowledge Distillation) を提案する。
MCC-KDでは、各質問に対して複数の合理性を生成し、対応する予測の一貫性を強制する。
異なるモデルアーキテクチャと様々なモデルスケールを用いたMCC-KDの有効性について検討する。
- 参考スコア(独自算出の注目度): 39.327560600207626
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have showcased remarkable capabilities in
complex reasoning through chain of thought (CoT) prompting. Recently, there has
been a growing interest in transferring these reasoning abilities from LLMs to
smaller models. However, achieving both the diversity and consistency in
rationales presents a challenge. In this paper, we focus on enhancing these two
aspects and propose Multi-CoT Consistent Knowledge Distillation (MCC-KD) to
efficiently distill the reasoning capabilities. In MCC-KD, we generate multiple
rationales for each question and enforce consistency among the corresponding
predictions by minimizing the bidirectional KL-divergence between the answer
distributions. We investigate the effectiveness of MCC-KD with different model
architectures (LLaMA/FlanT5) and various model scales (3B/7B/11B/13B) on both
mathematical reasoning and commonsense reasoning benchmarks. The empirical
results not only confirm MCC-KD's superior performance on in-distribution
datasets but also highlight its robust generalization ability on
out-of-distribution datasets.
- Abstract(参考訳): 大規模言語モデル(LLM)は、思考の連鎖(CoT)による複雑な推論において顕著な能力を示した。
近年,LLMから小型モデルへの推論能力の移転への関心が高まっている。
しかし、合理化における多様性と一貫性の両立は困難である。
本稿では,これらの2つの側面の強化に焦点をあて,その推論能力の効率向上を図るために,MCC-KD(Multi-CoT Consistent Knowledge Distillation)を提案する。
MCC-KDでは,各質問に対して複数の有理数を生成し,回答分布間の双方向KL分割を最小化することにより,対応する予測間の一貫性を強制する。
本研究では,様々なモデルアーキテクチャ (LLaMA/FlanT5) と様々なモデルスケール (3B/7B/11B/13B) によるMCC-KDの有効性について検討した。
実験の結果は、MCC-KDの分布内データセットにおける優れた性能を確認するだけでなく、分布外データセットに対する堅牢な一般化能力を強調している。
関連論文リスト
- RCP-Merging: Merging Long Chain-of-Thought Models with Domain-Specific Models by Considering Reasoning Capability as Prior [18.699960005016433]
ロングチェーン・オブ・シント(CoT)機能を持つ大規模言語モデル(LLM)は、推論モデルと呼ばれ、より複雑な問題解決能力を示している。
RCP-Merging: Reasoning Capability を優先として,Long Chain-of-Thought Models と Domain-Specific Models を併用する。
その結果、RCP-Mergingはドメイン固有の推論モデルとうまく融合し、最先端の手法よりもドメインタスクのパフォーマンスを9.5%向上し、9.2%向上した。
論文 参考訳(メタデータ) (2025-08-05T06:38:18Z) - Token Signature: Predicting Chain-of-Thought Gains with Token Decoding Feature in Large Language Models [9.282278040339138]
CoT(Chain-of-Thought)技術は、複雑な推論タスクにおける大規模言語モデル(LLM)の性能向上に有効であることが証明されている。
トークン確率分布の単調性はCoT推論により得られる利得と相関する可能性があることを予備観測する。
トークン確率分布に基づく2つの指標を提案し,異なるタスク間でCoTの有効性を評価する。
論文 参考訳(メタデータ) (2025-06-06T11:53:27Z) - KDRL: Post-Training Reasoning LLMs via Unified Knowledge Distillation and Reinforcement Learning [72.53466291156604]
教師の指導(KD)と自己探索(RL)を通じて推論モデルを協調的に最適化するテキスト化後学習フレームワークである textbfKDRL を提案する。
まず、GRPOとKDを統合する統一目的を定式化し、異なるKL近似、KL係数、報酬誘導KD戦略が学習後の全体的なダイナミクスと性能にどのように影響するかを体系的に検討する。
論文 参考訳(メタデータ) (2025-06-02T19:46:41Z) - Self-Classification Enhancement and Correction for Weakly Supervised Object Detection [113.51483527300496]
弱い監督対象検出(WSOD)は、ラベル付けコストの低いため、多くの注目を集めている。
本稿では,この2つの問題を改善するための新しいWSODフレームワークを紹介する。
まず,2つの異なるMCCタスク間のギャップを埋めるために,クラス内バイナリ分類(ICBC)を統合した自己分類拡張モジュールを提案する。
また,2つのMCCタスクの結果を組み合わせて,誤分類予測を効果的に削減する自己分類補正アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-05-22T06:45:58Z) - Activation-Guided Consensus Merging for Large Language Models [25.68958388022476]
textbfActivation-Guided textbfConsensus textbfMerging(textbfACM)は,層固有のマージ係数を決定するプラグインとプレイのマージフレームワークである。
L2S(Long-to-Short)と一般的なマージタスクの実験は、ACMが全てのベースラインメソッドを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2025-05-20T07:04:01Z) - Chain-of-Thought Prompting for Out-of-Distribution Samples: A Latent-Variable Study [5.236910203359897]
CoT(Chain-of-Thought)プロンプトは、大規模言語モデルにおけるコンテキスト内学習を改善するための強力なテクニックとして登場した。
我々は、CoTの潜在変数フレームワークを拡張し、その振る舞いを2つのオフ・オブ・ディストリビューション(OOD)シナリオで研究する。
実験により, 潜伏変数がトレーニング中に見られるものとよく似ているOODサンプルに対して, CoT推論が効果的に一般化することを示したが, この類似性が低下すると性能が低下する。
論文 参考訳(メタデータ) (2025-04-17T14:59:29Z) - MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency [63.23935582919081]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。
我々は,LMMのCoT推論性能を評価する特別ベンチマークであるMME-CoTを紹介する。
我々は最先端のLMMの詳細な分析を行い、いくつかの重要な知見を明らかにした。
論文 参考訳(メタデータ) (2025-02-13T18:59:46Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - Mentor-KD: Making Small Language Models Better Multi-step Reasoners [15.159415340059388]
我々は,LLMのマルチステップ推論能力をより小さいLMに効果的に蒸留するメンター-KDを提案する。
我々は、メンタ、中間サイズのタスク固有の微調整モデルを利用して、追加のCoTアノテーションを強化します。
我々は広範囲な実験を行い、メンターKDの有効性を様々なモデルや複雑な推論タスクで確認する。
論文 参考訳(メタデータ) (2024-10-11T17:53:27Z) - Enhancing Knowledge Distillation of Large Language Models through Efficient Multi-Modal Distribution Alignment [10.104085497265004]
本稿では,教師モデルと学生モデルとのピーク予測の整合性を促進するために,ランキング損失に基づく知識蒸留(RLKD)を提案する。
提案手法は,教師モデルのマルチモーダル分布をよりよく学習し,様々な下流タスクにおいて顕著な性能向上をもたらす。
論文 参考訳(メタデータ) (2024-09-19T08:06:42Z) - Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs [63.36637269634553]
本稿では,LLMを微調整し,一つの推論ステップで思考の逆連鎖(DCoT)を生成する手法を提案する。
DCoTの微調整により,モデルファミリおよびスケール間のCoTベースライン上での性能が向上することを示す。
我々の研究は、定量的解析と手動評価の両方で、観測された利益は、最初の推論連鎖を洗練させるモデルの能力に由来することを明らかにしているため、重要である。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - Correlation-Decoupled Knowledge Distillation for Multimodal Sentiment Analysis with Incomplete Modalities [16.69453837626083]
本稿では,Multimodal Sentiment Analysis (MSA)タスクのための相関分離型知識蒸留(CorrKD)フレームワークを提案する。
本稿では, クロスサンプル相関を含む包括的知識を伝達し, 欠落した意味論を再構築するサンプルレベルのコントラスト蒸留機構を提案する。
我々は,学生ネットワークの感情決定境界を最適化するために,応答不整合蒸留方式を設計する。
論文 参考訳(メタデータ) (2024-04-25T09:35:09Z) - ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting [124.69672273754144]
CoT(Chain-of-Thought)のプロンプトにより,大規模言語モデル(LLM)の推論能力が向上する
既存のCoTアプローチは通常、単純な推論タスクに重点を置いており、結果として低品質で一貫性のないCoTプロンプトをもたらす。
優れたCoTプロンプトの自動生成のための新しいフレームワークであるCoTGeniusを紹介する。
論文 参考訳(メタデータ) (2024-03-21T11:34:26Z) - Understanding the Robustness of Multi-modal Contrastive Learning to Distribution Shift [14.641747166801133]
CLIPのようなマルチモーダルな対照的な学習アプローチは、分散シフトに対して堅牢な学習表現において、顕著な成功を収めている。
MMCLの強靭性の背後にある2つのメカニズムを同定する。
理論的には、リッチキャプションを用いたロバストネスの利点を実証し、キャプション内の様々な種類の詳細を注釈付けする効果を探求する。
論文 参考訳(メタデータ) (2023-10-08T02:25:52Z) - Leveraging Diffusion Disentangled Representations to Mitigate Shortcuts
in Underspecified Visual Tasks [92.32670915472099]
拡散確率モデル(DPM)を用いた合成カウンターファクトの生成を利用したアンサンブルの多様化フレームワークを提案する。
拡散誘導型分散化は,データ収集を必要とする従来の手法に匹敵するアンサンブル多様性を達成し,ショートカットからの注意を回避できることを示す。
論文 参考訳(メタデータ) (2023-10-03T17:37:52Z) - Chain-of-Thought Prompt Distillation for Multimodal Named Entity
Recognition and Multimodal Relation Extraction [8.169359626365619]
思考のテキストチェーン(CoT) -- 中間推論ステップのシーケンスを生成します。
本稿では,大規模言語モデルからのコモンセンス推論能力を同化するための新しい条件付きプロンプト蒸留法を提案する。
我々のアプローチは最先端の精度を達成し、解釈可能性、データ効率、ドメイン間の一般化に関する多くの利点を示す。
論文 参考訳(メタデータ) (2023-06-25T04:33:56Z) - Multimodal Chain-of-Thought Reasoning in Language Models [94.70184390935661]
言語(テキスト)と視覚(画像)のモダリティを2段階のフレームワークに組み込んだマルチモーダルCoTを提案する。
その結果,ScienceQA と A-OKVQA のベンチマークは,提案手法の有効性を示した。
論文 参考訳(メタデータ) (2023-02-02T07:51:19Z) - Trusted Multi-View Classification with Dynamic Evidential Fusion [73.35990456162745]
信頼型マルチビュー分類(TMC)と呼ばれる新しいマルチビュー分類アルゴリズムを提案する。
TMCは、様々な視点をエビデンスレベルで動的に統合することで、マルチビュー学習のための新しいパラダイムを提供する。
理論的および実験的結果は、精度、堅牢性、信頼性において提案されたモデルの有効性を検証した。
論文 参考訳(メタデータ) (2022-04-25T03:48:49Z) - KDExplainer: A Task-oriented Attention Model for Explaining Knowledge
Distillation [59.061835562314066]
KDExplainerと呼ばれる新しいタスク指向の注意モデルを導入し、バニラKDの基礎となる作業メカニズムを明らかにします。
また、仮想注意モジュール(VAM)と呼ばれるポータブルツールを導入し、さまざまなディープニューラルネットワーク(DNN)とシームレスに統合し、KDの下でのパフォーマンスを向上させることができます。
論文 参考訳(メタデータ) (2021-05-10T08:15:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。