論文の概要: Decouple Non-parametric Knowledge Distillation For End-to-end Speech
Translation
- arxiv url: http://arxiv.org/abs/2304.10295v1
- Date: Thu, 20 Apr 2023 13:20:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 13:12:59.127852
- Title: Decouple Non-parametric Knowledge Distillation For End-to-end Speech
Translation
- Title(参考訳): エンドツーエンド音声翻訳のための非パラメトリック知識蒸留
- Authors: Hao Zhang, Nianwen Si, Yaqi Chen, Wenlin Zhang, Xukui Yang, Dan Qu,
Zhen Li
- Abstract要約: データの観点から非パラメトリックな知識蒸留(DNKD)を提案する。
本手法は, 知識蒸留のパラダイムに従っているが, 高度MTモデルから教師分布を得る代わりに, 非ナーレスデータストアから構築する。
MuST-Cコーパスの実験により,本手法は転写を必要とせず,強いベースラインに対して一貫した改善を達成できることが示されている。
- 参考スコア(独自算出の注目度): 5.973321003365441
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing techniques often attempt to make knowledge transfer from a powerful
machine translation (MT) to speech translation (ST) model with some elaborate
techniques, which often requires transcription as extra input during training.
However, transcriptions are not always available, and how to improve the ST
model performance without transcription, i.e., data efficiency, has rarely been
studied in the literature. In this paper, we propose Decoupled Non-parametric
Knowledge Distillation (DNKD) from data perspective to improve the data
efficiency. Our method follows the knowledge distillation paradigm. However,
instead of obtaining the teacher distribution from a sophisticated MT model, we
construct it from a non-parametric datastore via k-Nearest-Neighbor (kNN)
retrieval, which removes the dependence on transcription and MT model. Then we
decouple the classic knowledge distillation loss into target and non-target
distillation to enhance the effect of the knowledge among non-target logits,
which is the prominent "dark knowledge". Experiments on MuST-C corpus show
that, the proposed method can achieve consistent improvement over the strong
baseline without requiring any transcription.
- Abstract(参考訳): 既存の技術はしばしば、訓練中に追加入力として書き起こしを必要とするような、強力な機械翻訳(MT)から音声翻訳(ST)モデルへの知識伝達を試みる。
しかし、文字の書き起こしは必ずしも可能ではなく、STモデルの性能を改善する方法、すなわちデータ効率が文献で研究されることはめったにない。
本稿では,非パラメトリック知識蒸留(dnkd)をデータの観点から分離し,データ効率を向上させることを提案する。
我々の方法は知識蒸留パラダイムに従っている。
しかし、高度MTモデルから教師分布を得る代わりに、k-Nearest-Neighbor(kNN)検索により非パラメトリックデータストアから構築し、転写とMTモデルへの依存を除去する。
次に,古典的な知識蒸留損失を目標蒸留と非目標蒸留に分離し,非目標ロジット間の知識の効果を高める。
MuST-Cコーパスの実験により,本手法は転写を必要とせず,強いベースラインに対して一貫した改善を達成できることが示されている。
関連論文リスト
- Efficient Technical Term Translation: A Knowledge Distillation Approach for Parenthetical Terminology Translation [0.0]
本稿では,専門分野におけるコミュニケーションの明確化に不可欠である専門用語を正確に翻訳することの課題に対処する。
本研究は, ペアレンテティカル・ターミノロジー・トランスフォーメーション (PTT) タスクを導入し, ペアレンテティカル・ターミノロジー・トランスフォーメーション(PTT)タスクの翻訳とともに, ペアレンテティカル・ターミノロジー・トランスフォーメーション(Parenthetical Terminology Translation, PTT)タスクを導入した。
そこで我々は,単語の全体的な翻訳精度と正しい括弧表現の両方を評価するための新しい評価指標を開発した。
論文 参考訳(メタデータ) (2024-10-01T13:40:28Z) - Improving End-to-End Speech Translation by Imitation-Based Knowledge
Distillation with Synthetic Transcripts [12.097786953347828]
そこで本研究では,教師のNMTシステムで手書き文字起こしに頼らずに,AST学生の誤りを訂正する模倣学習手法を提案する。
我々は,NMT教師が自動書き起こしの誤りから回復でき,AST学生の誤訳を訂正できることを示した。
論文 参考訳(メタデータ) (2023-07-17T12:14:45Z) - Multi-Teacher Knowledge Distillation For Text Image Machine Translation [40.62692548291319]
本稿では,パイプラインモデルからエンド・ツー・エンドのTIMTモデルに知識を効果的に蒸留するための,MTKD(Multi-Teacher Knowledge Distillation)手法を提案する。
提案するMTKDは,テキスト画像翻訳性能を効果的に向上し,既存のエンドツーエンドおよびパイプラインモデルより優れている。
論文 参考訳(メタデータ) (2023-05-09T07:41:17Z) - Prompting to Distill: Boosting Data-Free Knowledge Distillation via
Reinforced Prompt [52.6946016535059]
データフリー知識蒸留(DFKD)は、元のトレーニングデータの依存をなくし、知識蒸留を行う。
本稿では,PmptDFD(PromptDFD)と呼ばれるプロンプトベースの手法を提案する。
本実験で示すように, 本手法は, 合成品質を大幅に向上し, 蒸留性能を著しく向上させる。
論文 参考訳(メタデータ) (2022-05-16T08:56:53Z) - Alternated Training with Synthetic and Authentic Data for Neural Machine
Translation [49.35605028467887]
ニューラルマシン翻訳(NMT)のための合成および認証データを用いた交互トレーニングを提案する。
従来の研究と比較して,ノイズの多い合成データによってNMTモデルのトレーニングが妨げられるのを防止するためのガイダンスとして,認証データを導入している。
中国語・ドイツ語・英語の翻訳タスクの実験は、我々のアプローチがいくつかの強いベースラインにまたがって性能を向上させることを示している。
論文 参考訳(メタデータ) (2021-06-16T07:13:16Z) - Rejuvenating Low-Frequency Words: Making the Most of Parallel Data in
Non-Autoregressive Translation [98.11249019844281]
知識蒸留(KD)は、非自己回帰翻訳(NAT)モデルを訓練するための合成データを構築するために一般的に用いられる。
低周波対象語に対するアライメントを向上するために,逆KDを提案する。
その結果,提案手法は翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-06-02T02:41:40Z) - Source and Target Bidirectional Knowledge Distillation for End-to-end
Speech Translation [88.78138830698173]
外部テキストベースNMTモデルからのシーケンスレベルの知識蒸留(SeqKD)に注目した。
E2E-STモデルを訓練し、パラフレーズ転写を1つのデコーダで補助タスクとして予測する。
論文 参考訳(メタデータ) (2021-04-13T19:00:51Z) - Better Neural Machine Translation by Extracting Linguistic Information
from BERT [4.353029347463806]
ニューラルマシン翻訳(NMT)に言語情報を追加することは、主に事前訓練されたモデルからの点推定の使用に焦点を当てている。
我々は点推定の代わりにBERTから細調整ベクターベース言語情報を抽出することによりNMTを増強する。
論文 参考訳(メタデータ) (2021-04-07T00:03:51Z) - Textual Supervision for Visually Grounded Spoken Language Understanding [51.93744335044475]
音声から意味情報を抽出する音声言語理解モデル
これは、書き起こしが高価または入手が不可能な低リソース言語に有用である。
最近の研究では、これらのモデルがトレーニング時に転写可能であれば改善できることが示されている。
論文 参考訳(メタデータ) (2020-10-06T15:16:23Z) - Understanding Learning Dynamics for Neural Machine Translation [53.23463279153577]
ロス・チェンジ・アロケーション (LCA)citeplan 2019-loss-change-allocation を用いてNMTの学習力学を理解することを提案する。
LCAは更新毎にデータセット全体の勾配を計算する必要があるため、NMTシナリオで実際に実施するための近似を提示する。
シミュレーション実験により, 近似計算は効率的であり, 実験により一貫した結果が得られることを示した。
論文 参考訳(メタデータ) (2020-04-05T13:32:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。