Fugu-MT 論文翻訳(概要): Oracle Teacher: Leveraging Target Information for Better Knowledge Distillation of CTC Models

論文の概要: Oracle Teacher: Leveraging Target Information for Better Knowledge Distillation of CTC Models

arxiv url: http://arxiv.org/abs/2111.03664v4
Date: Fri, 11 Aug 2023 16:15:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-14 18:12:12.910481
Title: Oracle Teacher: Leveraging Target Information for Better Knowledge Distillation of CTC Models
Title（参考訳）: Oracleの教師: CTCモデルのより良い知識蒸留のためにターゲット情報を活用する
Authors: Ji Won Yoon, Hyung Yong Kim, Hyeonseung Lee, Sunghwan Ahn, and Nam Soo Kim
Abstract要約: 我々は、コネクショニスト時間分類(CTC)に基づくシーケンスモデル、すなわち、Oracle Teacherのための新しいタイプの教師モデルを導入する。 Oracle Teacherは、ターゲット情報を参照することによって、より正確なCTCアライメントを学ぶため、より最適なガイダンスを提供することができる。 CTCアルゴリズムの多対一マッピング特性に基づいて、自明な解を効果的に防止できるトレーニング戦略を提案する。
参考スコア（独自算出の注目度）: 10.941519846908697
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Knowledge distillation (KD), best known as an effective method for model compression, aims at transferring the knowledge of a bigger network (teacher) to a much smaller network (student). Conventional KD methods usually employ the teacher model trained in a supervised manner, where output labels are treated only as targets. Extending this supervised scheme further, we introduce a new type of teacher model for connectionist temporal classification (CTC)-based sequence models, namely Oracle Teacher, that leverages both the source inputs and the output labels as the teacher model's input. Since the Oracle Teacher learns a more accurate CTC alignment by referring to the target information, it can provide the student with more optimal guidance. One potential risk for the proposed approach is a trivial solution that the model's output directly copies the target input. Based on a many-to-one mapping property of the CTC algorithm, we present a training strategy that can effectively prevent the trivial solution and thus enables utilizing both source and target inputs for model training. Extensive experiments are conducted on two sequence learning tasks: speech recognition and scene text recognition. From the experimental results, we empirically show that the proposed model improves the students across these tasks while achieving a considerable speed-up in the teacher model's training time.
Abstract（参考訳）: モデル圧縮の効果的な方法として知られる知識蒸留(KD)は、より大きなネットワーク(教師)の知識をはるかに小さなネットワーク(学生)に転送することを目的としている。従来のKD手法では、通常は教師モデルを用いて、出力ラベルはターゲットとしてのみ扱われる。さらに、この教師付きスキームを拡張して、教師モデルの入力として、ソース入力と出力ラベルの両方を活用するコネクショニスト時間分類(CTC)ベースのシーケンスモデル、すなわち、Oracle Teacherを導入した新しいタイプの教師モデルを導入する。 Oracle Teacherは、ターゲット情報を参照することによって、より正確なCTCアライメントを学ぶため、より最適なガイダンスを提供することができる。提案手法の潜在的なリスクの1つは、モデル出力がターゲット入力を直接コピーする自明な解決策である。我々は,ctcアルゴリズムの多対一マッピング特性に基づいて,自明な解を効果的に防止し,モデルトレーニングにソースとターゲットの両方の入力を活用できるトレーニング戦略を提案する。音声認識とシーンテキスト認識の2つのシーケンス学習タスクについて広範な実験を行った。実験結果から,教師モデルの学習時間を大幅に短縮しながら,提案モデルが各課題の生徒を改善できることを実証的に示した。

関連論文リスト

PCoreSet: Effective Active Learning through Knowledge Distillation from Vision-Language Models [46.61443903356605]
本稿では,能動学習と知識蒸留を統合したフレームワークであるActiveKDを紹介する。特徴空間よりも確率空間のカバレッジを最大化する選択戦略であるPCoreSetを提案する。 PCoreSetはActiveKDフレームワーク内の既存の選択メソッドよりも一貫して優れています。
論文参考訳（メタデータ） (2025-06-01T08:54:37Z)
Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。 UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文参考訳（メタデータ） (2025-04-19T14:08:56Z)
Faithful Label-free Knowledge Distillation [8.572967695281054]
本稿では,中期教師(TinTeM)と呼ばれるラベルフリーな知識蒸留手法を提案する。より忠実な学生を生み出し、教師ネットワークの振る舞いをよりよく再現し、モデルの堅牢性、一般化可能性、アウト・オブ・ディストリビューション検出などをテストする。
論文参考訳（メタデータ） (2024-11-22T01:48:44Z)
Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。 SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文参考訳（メタデータ） (2024-10-15T06:51:25Z)
Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。 OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文参考訳（メタデータ） (2024-09-19T07:05:26Z)
Lightweight Self-Knowledge Distillation with Multi-source Information Fusion [3.107478665474057]
知識蒸留(KD)は、ニューラルネットワークモデル間で知識を伝達する強力な技術である。マルチソース情報を利用してより情報のある教師を構築する軽量なSKDフレームワークを提案する。提案するDRG, DSR, およびそれらの組み合わせの性能を, 各種データセットおよびモデルに関する総合的な実験により検証する。
論文参考訳（メタデータ） (2023-05-16T05:46:31Z)
EmbedDistill: A Geometric Knowledge Distillation for Information Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95～97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文参考訳（メタデータ） (2023-01-27T22:04:37Z)
Knowledge Distillation with Representative Teacher Keys Based on Attention Mechanism for Image Classification Model Compression [1.503974529275767]
知識蒸留(KD)はモデルパラメータを減らすためのモデル圧縮の効果的な方法の1つとして認識されている。注意機構にヒントを得て,代表教師キー(RTK)と呼ばれる新しいKD手法を提案する。提案するRTKは,最先端の注意に基づくKD手法の分類精度を効果的に向上させることができる。
論文参考訳（メタデータ） (2022-06-26T05:08:50Z)
Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。 DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文参考訳（メタデータ） (2022-06-13T11:52:13Z)
ALM-KD: Knowledge Distillation with noisy labels via adaptive loss mixing [25.49637460661711]
知識蒸留は、教師付き環境で学生モデルを訓練するために、事前訓練されたモデルの出力を使用する技術である。 KD中の適応損失混合方式を用いてこの問題に対処する。提案手法は, 標準KD設定, マルチ教師, 自己蒸留設定において, 提案手法を用いて得られた性能向上を示す。
論文参考訳（メタデータ） (2022-02-07T14:53:22Z)
Distilling EEG Representations via Capsules for Affective Computing [14.67085109524245]
カプセル型アーキテクチャを用いて脳波表現を蒸留する新しい知識蒸留パイプラインを提案する。本フレームワークは,教師から効果的に学習できる圧縮率の異なる学生ネットワークを実現する。この手法は2つのデータセットのうちの1つで最先端の結果を得る。
論文参考訳（メタデータ） (2021-04-30T22:04:35Z)
Heterogeneous Knowledge Distillation using Information Flow Modeling [82.83891707250926]
教師モデルの様々な層を流れる情報の流れをモデル化して機能する新しいKD手法を提案する。提案手法は, トレーニング過程の異なる段階において, 適切な監督手法を用いて, 上記の制限を克服することができる。
論文参考訳（メタデータ） (2020-05-02T06:56:56Z)
Distilling Knowledge from Graph Convolutional Networks [146.71503336770886]
既存の知識蒸留法は畳み込みニューラルネットワーク(CNN)に焦点を当てている本稿では,事前学習したグラフ畳み込みネットワーク(GCN)モデルから知識を抽出する手法を提案する。提案手法は,GCNモデルに対する最先端の知識蒸留性能を実現する。
論文参考訳（メタデータ） (2020-03-23T18:23:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。