論文の概要: Learning to Maximize Mutual Information for Chain-of-Thought
Distillation
- arxiv url: http://arxiv.org/abs/2403.03348v1
- Date: Tue, 5 Mar 2024 22:21:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 16:42:52.127912
- Title: Learning to Maximize Mutual Information for Chain-of-Thought
Distillation
- Title(参考訳): 連鎖蒸留における相互情報の最大化学習
- Authors: Xin Chen, Hanxian Huang, Yanjun Gao, Yi Wang, Jishen Zhao, Ke Ding
- Abstract要約: CoT蒸留を利用した新しい手法であるDistilling Step-by-Step (DSS) は、より大型のモデルに対して優れた推論能力を持つ小型モデルを投入することで、約束を証明している。
しかし、DSSは2つのトレーニングタスクの本質的な関係を見落とし、CoT知識とラベル予測のタスクの非効率な統合につながる。
本稿では,この最適化問題を学習に基づく手法を用いて解くための変分手法を提案する。
- 参考スコア(独自算出の注目度): 14.47452997404004
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Knowledge distillation, the technique of transferring knowledge from large,
complex models to smaller ones, marks a pivotal step towards efficient AI
deployment. Distilling Step-by-Step (DSS), a novel method utilizing
chain-of-thought (CoT) distillation, has demonstrated promise by imbuing
smaller models with the superior reasoning capabilities of their larger
counterparts. In DSS, the distilled model acquires the ability to generate
rationales and predict labels concurrently through a multi-task learning
framework. However, DSS overlooks the intrinsic relationship between the two
training tasks, leading to ineffective integration of CoT knowledge with the
task of label prediction. To this end, we investigate the mutual relationship
of the two tasks from Information Bottleneck perspective and formulate it as
maximizing the mutual information of the representation features of the two
tasks. We propose a variational approach to solve this optimization problem
using a learning-based method. Our experimental results across four datasets
demonstrate that our method outperforms the state-of-the-art DSS. Our findings
offer insightful guidance for future research on language model distillation as
well as applications involving CoT. Code and models will be released soon.
- Abstract(参考訳): 知識蒸留は、大規模で複雑なモデルから小さなモデルへ知識を伝達する技術であり、効率的なAIデプロイメントに向けた重要なステップである。
CoT蒸留を利用した新しい手法であるDistilling Step-by-Step (DSS) は、より大型のモデルに対して優れた推論能力を持つ小型モデルを投入することで、約束を証明している。
dssでは、蒸留モデルは、マルチタスク学習フレームワークを介して合理性を生成し、ラベルを同時予測する能力を得る。
しかし、DSSは2つのトレーニングタスクの本質的な関係を見落とし、CoT知識とラベル予測のタスクの非効率な統合につながる。
この目的のために,情報ボトルネックの観点から2つのタスクの相互関係を調査し,2つのタスクの表現特徴の相互情報最大化として定式化する。
学習に基づく手法を用いて,この最適化問題の解法を提案する。
4つのデータセットにまたがる実験結果から,本手法は最先端DSSよりも優れていることが示された。
本研究は,言語モデルの蒸留およびCoTの応用に関する今後の研究に対する洞察に富んだガイダンスを提供する。
コードとモデルはまもなくリリースされる。
関連論文リスト
- Robust Training of Federated Models with Extremely Label Deficiency [84.00832527512148]
フェデレーション半教師付き学習(FSSL)は、ラベル不足を伴う分散データを用いて機械学習モデルを協調訓練するための強力なパラダイムとして登場した。
我々は,ラベル付きおよびラベルなしデータの異なる視点から洞察を提供することにより相互指導を強化するために,ツインサイトと呼ばれる新しいツインモデルパラダイムを提案する。
4つのベンチマークデータセットに関する包括的な実験は、Twin-sightが様々な実験環境において最先端の手法を著しく上回っていることを示す重要な証拠となる。
論文 参考訳(メタデータ) (2024-02-22T10:19:34Z) - Distilling Large Language Models into Tiny Models for Named Entity
Recognition [0.0]
本研究は, BERTモデルの性能向上を図るため, GPT-4の能力を活用した3段階学習戦略について検討する。
LLM アノテーションと LLM アノテーションを混合したデータを用いて BERT を訓練し,従来の手法に対する LLM アノテーションの有効性を分析した。
以上の結果から,蒸留とオリジナルデータの戦略的混合がBERTのNER能力を著しく高めていることが示唆された。
論文 参考訳(メタデータ) (2024-02-14T16:10:45Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - CMD: Self-supervised 3D Action Representation Learning with Cross-modal
Mutual Distillation [130.08432609780374]
3D行動認識では、骨格のモダリティの間に豊富な相補的な情報が存在する。
本稿では,CMD(Cross-modal Mutual Distillation)フレームワークを提案する。
提案手法は,既存の自己管理手法より優れ,新しい記録を多数設定する。
論文 参考訳(メタデータ) (2022-08-26T06:06:09Z) - Information Theoretic Representation Distillation [20.802135299032308]
情報理論と知識蒸留の代替関係を,最近提案したエントロピー様関数を用いて構築する。
本手法は,知識蒸留とクロスモデル伝達タスクの最先端技術に対する競争性能を実現する。
バイナリ量子化のための新しい最先端技術に光を当てた。
論文 参考訳(メタデータ) (2021-12-01T12:39:50Z) - Improving Question Answering Performance Using Knowledge Distillation
and Active Learning [6.380750645368325]
本稿では,事前学習したBERTシステムのパラメータとモデル複雑性を低減するために,新しい知識蒸留(KD)手法を提案する。
本モデルでは,TinyBERTとDistilBERTの合計パラメータの2%しか使用せず,6層TinyBERTとDistilBERTの性能を実証する。
論文 参考訳(メタデータ) (2021-09-26T17:49:54Z) - Dynamic Knowledge embedding and tracing [18.717482292051788]
本稿では,行列分解の手法と最近のリカレントニューラルネットワーク(RNN)の進歩を組み合わせた知識追跡手法を提案する。
提案するemphDynEmbフレームワークは,概念やスキルのタグ情報を使わずに,学生の知識の追跡を可能にする。
論文 参考訳(メタデータ) (2020-05-18T21:56:42Z) - Residual Knowledge Distillation [96.18815134719975]
本研究は,アシスタント(A)を導入し,さらに知識を蒸留する残留知識蒸留(RKD)を提案する。
このように、S は T の特徴写像を模倣するように訓練され、A はそれらの間の残差を学習することでこの過程を支援する。
提案手法は,CIFAR-100 と ImageNet という,一般的な分類データセットにおいて魅力的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-21T07:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。