Fugu-MT 論文翻訳(概要): Learning to Maximize Mutual Information for Chain-of-Thought Distillation

論文の概要: Learning to Maximize Mutual Information for Chain-of-Thought Distillation

arxiv url: http://arxiv.org/abs/2403.03348v1
Date: Tue, 5 Mar 2024 22:21:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-07 16:42:52.127912
Title: Learning to Maximize Mutual Information for Chain-of-Thought Distillation
Title（参考訳）: 連鎖蒸留における相互情報の最大化学習
Authors: Xin Chen, Hanxian Huang, Yanjun Gao, Yi Wang, Jishen Zhao, Ke Ding
Abstract要約: CoT蒸留を利用した新しい手法であるDistilling Step-by-Step (DSS) は、より大型のモデルに対して優れた推論能力を持つ小型モデルを投入することで、約束を証明している。しかし、DSSは2つのトレーニングタスクの本質的な関係を見落とし、CoT知識とラベル予測のタスクの非効率な統合につながる。本稿では,この最適化問題を学習に基づく手法を用いて解くための変分手法を提案する。
参考スコア（独自算出の注目度）: 14.47452997404004
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Knowledge distillation, the technique of transferring knowledge from large, complex models to smaller ones, marks a pivotal step towards efficient AI deployment. Distilling Step-by-Step (DSS), a novel method utilizing chain-of-thought (CoT) distillation, has demonstrated promise by imbuing smaller models with the superior reasoning capabilities of their larger counterparts. In DSS, the distilled model acquires the ability to generate rationales and predict labels concurrently through a multi-task learning framework. However, DSS overlooks the intrinsic relationship between the two training tasks, leading to ineffective integration of CoT knowledge with the task of label prediction. To this end, we investigate the mutual relationship of the two tasks from Information Bottleneck perspective and formulate it as maximizing the mutual information of the representation features of the two tasks. We propose a variational approach to solve this optimization problem using a learning-based method. Our experimental results across four datasets demonstrate that our method outperforms the state-of-the-art DSS. Our findings offer insightful guidance for future research on language model distillation as well as applications involving CoT. Code and models will be released soon.
Abstract（参考訳）: 知識蒸留は、大規模で複雑なモデルから小さなモデルへ知識を伝達する技術であり、効率的なAIデプロイメントに向けた重要なステップである。 CoT蒸留を利用した新しい手法であるDistilling Step-by-Step (DSS) は、より大型のモデルに対して優れた推論能力を持つ小型モデルを投入することで、約束を証明している。 dssでは、蒸留モデルは、マルチタスク学習フレームワークを介して合理性を生成し、ラベルを同時予測する能力を得る。しかし、DSSは2つのトレーニングタスクの本質的な関係を見落とし、CoT知識とラベル予測のタスクの非効率な統合につながる。この目的のために,情報ボトルネックの観点から2つのタスクの相互関係を調査し,2つのタスクの表現特徴の相互情報最大化として定式化する。学習に基づく手法を用いて,この最適化問題の解法を提案する。 4つのデータセットにまたがる実験結果から,本手法は最先端DSSよりも優れていることが示された。本研究は,言語モデルの蒸留およびCoTの応用に関する今後の研究に対する洞察に富んだガイダンスを提供する。コードとモデルはまもなくリリースされる。

関連論文リスト

On-Policy Context Distillation for Language Models [92.82835176360864]
本稿では, オンライン蒸留とコンテキスト蒸留を橋渡しするフレームワークである, オン・ポリティ・コンテキスト蒸留(OPCD)を提案する。実験的知識蒸留とシステム急速蒸留の2つの重要な応用におけるOPCDの有効性を実証する。
論文参考訳（メタデータ） (2026-02-12T18:58:28Z)
Pedagogically-Inspired Data Synthesis for Language Model Knowledge Distillation [63.302074484672424]
本稿では,知識蒸留のための教育的な枠組みを提案する。提案手法は,学生モデルにおける知識不足を識別し,進歩的カリキュラムを通して知識提供を組織化し,学生モデルの認知能力に合わせた表現を適応させる。我々のフレームワークは特に複雑な推論タスクに優れており、最先端のベースラインと比較してMATHが19.2%、HumanEvalが22.3%改善している。
論文参考訳（メタデータ） (2026-02-12T17:00:36Z)
Co-Evidential Fusion with Information Volume for Medical Image Segmentation [39.930548790471896]
本稿では, 一般化された顕在的深層学習を用いた, 新規なプラチスティック・コエビデンシャル融合戦略を提案する。第2に、構築された証拠を評価するために、質量関数の情報量(IVUM)の概念を導入する。 4つのデータセットの実験により,本手法の競合性能が示された。
論文参考訳（メタデータ） (2025-06-03T06:13:19Z)
JointDistill: Adaptive Multi-Task Distillation for Joint Depth Estimation and Scene Segmentation [31.89422375115854]
この研究は、マルチタスク蒸留を用いて統一モデリングを改善する方法について検討する。学生の現在の学習能力に応じて各教師の知識量を調整できる自己適応型蒸留法を提案する。我々は,CityscapesやNYU-v2など,複数のベンチマークデータセットについて評価を行った。
論文参考訳（メタデータ） (2025-05-15T08:00:48Z)
On Distilling the Displacement Knowledge for Few-Shot Class-Incremental Learning [17.819582979803286]
FSCIL(Few-shot Class-Incremental Learning)は、データ分散の進化と、現実のシナリオにおけるデータ取得の難しさに対処する。 FSCILでよく見られる破滅的な忘れ事に対処するために、知識の蒸留は、学習されたデータ分布から知識を維持する方法として用いられる。
論文参考訳（メタデータ） (2024-12-15T02:10:18Z)
Multi-Stage Knowledge Integration of Vision-Language Models for Continual Learning [79.46570165281084]
蒸留法における人間の学習過程をエミュレートするマルチステージ知識統合ネットワーク(MulKI)を提案する。 Mulkiは、イデオロギーの排除、新しいイデオロギーの追加、イデオロギーの排除、コネクティクスの作りという4つの段階を通じてこれを達成している。提案手法は,下流タスク間の連続学習をサポートしながら,ゼロショット能力の維持における大幅な改善を示す。
論文参考訳（メタデータ） (2024-11-11T07:36:19Z)
Deep Boosting Learning: A Brand-new Cooperative Approach for Image-Text Matching [53.05954114863596]
画像テキストマッチングのための新しいDeep Boosting Learning (DBL)アルゴリズムを提案する。アンカーブランチは、まずデータプロパティに関する洞察を提供するために訓練される。ターゲットブランチは、一致したサンプルと未一致のサンプルとの相対距離をさらに拡大するために、より適応的なマージン制約を同時に課される。
論文参考訳（メタデータ） (2024-04-28T08:44:28Z)
Robust Training of Federated Models with Extremely Label Deficiency [84.00832527512148]
フェデレーション半教師付き学習(FSSL)は、ラベル不足を伴う分散データを用いて機械学習モデルを協調訓練するための強力なパラダイムとして登場した。我々は,ラベル付きおよびラベルなしデータの異なる視点から洞察を提供することにより相互指導を強化するために,ツインサイトと呼ばれる新しいツインモデルパラダイムを提案する。 4つのベンチマークデータセットに関する包括的な実験は、Twin-sightが様々な実験環境において最先端の手法を著しく上回っていることを示す重要な証拠となる。
論文参考訳（メタデータ） (2024-02-22T10:19:34Z)
EmbedDistill: A Geometric Knowledge Distillation for Information Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95～97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文参考訳（メタデータ） (2023-01-27T22:04:37Z)
CMD: Self-supervised 3D Action Representation Learning with Cross-modal Mutual Distillation [130.08432609780374]
3D行動認識では、骨格のモダリティの間に豊富な相補的な情報が存在する。本稿では,CMD(Cross-modal Mutual Distillation)フレームワークを提案する。提案手法は,既存の自己管理手法より優れ,新しい記録を多数設定する。
論文参考訳（メタデータ） (2022-08-26T06:06:09Z)
Information Theoretic Representation Distillation [20.802135299032308]
情報理論と知識蒸留の代替関係を,最近提案したエントロピー様関数を用いて構築する。本手法は,知識蒸留とクロスモデル伝達タスクの最先端技術に対する競争性能を実現する。バイナリ量子化のための新しい最先端技術に光を当てた。
論文参考訳（メタデータ） (2021-12-01T12:39:50Z)
Exploring Task Difficulty for Few-Shot Relation Extraction [22.585574542329677]
Few-shot Relation extract (FSRE) は、わずかに注釈付きインスタンスで学習することで、新しい関係を認識することに焦点を当てている。本稿では,関係ラベル情報を活用することで,より良い表現を学習するコントラスト学習に基づく新しいアプローチを提案する。
論文参考訳（メタデータ） (2021-09-12T09:40:33Z)
Residual Knowledge Distillation [96.18815134719975]
本研究は,アシスタント(A)を導入し,さらに知識を蒸留する残留知識蒸留(RKD)を提案する。このように、S は T の特徴写像を模倣するように訓練され、A はそれらの間の残差を学習することでこの過程を支援する。提案手法は,CIFAR-100 と ImageNet という,一般的な分類データセットにおいて魅力的な結果が得られることを示す。
論文参考訳（メタデータ） (2020-02-21T07:49:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。