Fugu-MT 論文翻訳(概要): Biased Teacher, Balanced Student

論文の概要: Biased Teacher, Balanced Student

arxiv url: http://arxiv.org/abs/2506.18496v1
Date: Mon, 23 Jun 2025 10:46:44 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-24 19:06:36.94036
Title: Biased Teacher, Balanced Student
Title（参考訳）: バイアスのある教師とバランスの取れた学生
Authors: Seonghak Kim,
Abstract要約: Long-Tailed Knowledge Distillation (LTKD)は、クラス不均衡シナリオに適した新しいフレームワークである。 CIFAR-100-LT、TinyImageNet-LT、ImageNet-LTの実験は、LTKDが既存のKDメソッドより一貫して優れていることを示している。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Knowledge Distillation (KD) is a widely adopted model compression technique where a compact student model learns from the output of a larger, pre-trained teacher. While effective in balanced settings, conventional KD suffers significantly when applied to long-tailed data distributions, as the teacher model tends to be biased toward head classes and provides limited supervision for tail classes. In this paper, we propose Long-Tailed Knowledge Distillation (LTKD), a novel framework tailored for class-imbalanced scenarios. We begin by reformulating the standard KD objective into two components: inter-group and intra-group Kullback-Leibler (KL) divergence, corresponding to the prediction distributions across and within class groups (head, medium, tail), respectively. This decomposition allows us to identify and quantify the sources of teacher bias. To address them, we introduce (1) a rebalanced inter-group loss that calibrates the teacher's group-level predictions and (2) a uniform intra-group loss that ensures equal contribution from all groups during distillation. Extensive experiments on CIFAR-100-LT, TinyImageNet-LT, and ImageNet-LT show that LTKD consistently outperforms existing KD methods, achieving significant gains in both overall accuracy and tail-class performance. Our results demonstrate that LTKD enables effective knowledge transfer even from biased teachers, making it a strong candidate for real-world deployment in resource-constrained and imbalanced settings.
Abstract（参考訳）: 知識蒸留(KD)は、より大規模で訓練済みの教師の出力から、コンパクトな学生モデルを学習する、広く採用されているモデル圧縮技術である。バランスの取れた環境では有効であるが、教師モデルがヘッドクラスに偏りやすいため、従来のKDは長い尾のデータ分布に適用した場合に著しく苦しむ。本稿では,クラス不均衡シナリオに適した新しいフレームワークであるLong-Tailed Knowledge Distillation (LTKD)を提案する。まず、標準KD目標を、クラス群(頭、中、尾)における予測分布に対応する、グループ間およびグループ内Kullback-Leibler(KL)分散の2つの構成要素に再構成することから始める。この分解により,教師のバイアス源の同定と定量化が可能である。そこで本研究では,(1)教師の集団レベルの予測を校正するグループ間損失の再均衡と,(2)蒸留中のすべてのグループから等しく寄与するグループ内損失について紹介する。 CIFAR-100-LT、TinyImageNet-LT、ImageNet-LTの大規模な実験により、LTKDは既存のKDメソッドよりも一貫して優れており、全体的な精度とテールクラスのパフォーマンスの両方において顕著に向上していることが示された。以上の結果から,LTKDはバイアスのある教師からでも効果的な知識伝達を可能にし,資源制約やバランスの取れない環境における現実的な展開の有力な候補となることが示唆された。

関連論文リスト

ABKD: Pursuing a Proper Allocation of the Probability Mass in Knowledge Distillation via $α$-$β$-Divergence [89.630486749083]
知識蒸留(KD)は、大きな教師モデルからより小さな学生モデルに知識を伝達する。 KDの中核的な課題は、2つのモード集中効果のバランスにある。我々は$alpha$$beta$-divergenceを持つ汎用フレームワークであるABKDを提案する。
論文参考訳（メタデータ） (2025-05-07T16:48:49Z)
Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。 SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文参考訳（メタデータ） (2024-10-15T06:51:25Z)
Efficient and Robust Knowledge Distillation from A Stronger Teacher Based on Correlation Matching [0.09999629695552192]
相関マッチング知識蒸留 (CMKD) 法は, ピアソンとスピアマンの相関係数に基づくKD損失を組み合わせ, より効率的で堅牢な蒸留を実現している。 CMKDはシンプルだが実用的であり、CIRAR-100とImageNetの最先端性能を継続的に達成できることを広範な実験で実証している。
論文参考訳（メタデータ） (2024-10-09T05:42:47Z)
Enhancing Knowledge Distillation of Large Language Models through Efficient Multi-Modal Distribution Alignment [10.104085497265004]
本稿では,教師モデルと学生モデルとのピーク予測の整合性を促進するために,ランキング損失に基づく知識蒸留(RLKD)を提案する。提案手法は,教師モデルのマルチモーダル分布をよりよく学習し,様々な下流タスクにおいて顕著な性能向上をもたらす。
論文参考訳（メタデータ） (2024-09-19T08:06:42Z)
Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。 OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文参考訳（メタデータ） (2024-09-19T07:05:26Z)
Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。 CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文参考訳（メタデータ） (2023-11-03T21:55:33Z)
How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文参考訳（メタデータ） (2021-10-22T21:30:53Z)
MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文参考訳（メタデータ） (2020-11-01T18:47:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。