論文の概要: Multi-Teacher Knowledge Distillation For Text Image Machine Translation
- arxiv url: http://arxiv.org/abs/2305.05226v1
- Date: Tue, 9 May 2023 07:41:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 13:36:50.433051
- Title: Multi-Teacher Knowledge Distillation For Text Image Machine Translation
- Title(参考訳): テキスト画像翻訳のためのマルチ教師知識蒸留
- Authors: Cong Ma, Yaping Zhang, Mei Tu, Yang Zhao, Yu Zhou, Chengqing Zong
- Abstract要約: 本稿では,パイプラインモデルからエンド・ツー・エンドのTIMTモデルに知識を効果的に蒸留するための,MTKD(Multi-Teacher Knowledge Distillation)手法を提案する。
提案するMTKDは,テキスト画像翻訳性能を効果的に向上し,既存のエンドツーエンドおよびパイプラインモデルより優れている。
- 参考スコア(独自算出の注目度): 40.62692548291319
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Text image machine translation (TIMT) has been widely used in various
real-world applications, which translates source language texts in images into
another target language sentence. Existing methods on TIMT are mainly divided
into two categories: the recognition-then-translation pipeline model and the
end-to-end model. However, how to transfer knowledge from the pipeline model
into the end-to-end model remains an unsolved problem. In this paper, we
propose a novel Multi-Teacher Knowledge Distillation (MTKD) method to
effectively distillate knowledge into the end-to-end TIMT model from the
pipeline model. Specifically, three teachers are utilized to improve the
performance of the end-to-end TIMT model. The image encoder in the end-to-end
TIMT model is optimized with the knowledge distillation guidance from the
recognition teacher encoder, while the sequential encoder and decoder are
improved by transferring knowledge from the translation sequential and decoder
teacher models. Furthermore, both token and sentence-level knowledge
distillations are incorporated to better boost the translation performance.
Extensive experimental results show that our proposed MTKD effectively improves
the text image translation performance and outperforms existing end-to-end and
pipeline models with fewer parameters and less decoding time, illustrating that
MTKD can take advantage of both pipeline and end-to-end models.
- Abstract(参考訳): テキスト画像機械翻訳(TIMT)は様々な実世界のアプリケーションで広く使われており、画像中のソースコードを別のターゲット言語文に変換する。
既存のTIMTの手法は主に認識翻訳パイプラインモデルとエンドツーエンドモデルという2つのカテゴリに分けられる。
しかし、パイプラインモデルからエンドツーエンドモデルへの知識の転送方法は未解決の問題である。
本稿では,パイプラインモデルからエンド・ツー・エンドのTIMTモデルに知識を効果的に蒸留するための,MTKD(Multi-Teacher Knowledge Distillation)手法を提案する。
具体的には,3人の教師が,エンドツーエンドのTIMTモデルの性能向上に活用されている。
エンドツーエンドのTIMTモデルにおける画像エンコーダは、認識教師エンコーダからの知識蒸留誘導に最適化され、シーケンシャルエンコーダとデコーダは、翻訳シーケンシャルおよびデコーダ教師モデルからの知識を伝達することにより改善される。
さらに、翻訳性能を向上させるために、トークンと文レベルの知識蒸留が組み込まれている。
提案したMTKDは,テキスト画像変換性能を向上し,パラメータが少なく,復号時間が少なく,既存のエンドツーエンドモデルやパイプラインモデルよりも優れた性能を発揮することを示す。
関連論文リスト
- Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。
本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。
本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-03T08:15:39Z) - MT-PATCHER: Selective and Extendable Knowledge Distillation from Large Language Models for Machine Translation [61.65537912700187]
機械翻訳(MT)分野における言語モデル(LLM)の強みを実証した。
我々は,LLMから既存のMTモデルに選択的かつ包括的かつ積極的に知識を伝達するMT-Patcherというフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-14T16:07:39Z) - Improving Neural Machine Translation by Multi-Knowledge Integration with
Prompting [36.24578487904221]
我々は,マルチ知識,複数種類の知識をNMTモデルに統合し,プロンプトによる性能向上に着目する。
文,用語/フレーズ,翻訳テンプレートなど,複数の種類の知識をNMTモデルに効果的に統合する統合フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-08T02:55:00Z) - Cross-Modal Multi-Tasking for Speech-to-Text Translation via Hard
Parameter Sharing [72.56219471145232]
ハードパラメータ共有を伴うST/MTマルチタスクフレームワークを提案する。
本手法は,事前処理による音声文のモダリティギャップを低減する。
我々は,注意エンコーダ・デコーダ,コネクショニスト時間分類(CTC),トランスデューサ,共同CTC/アテンションモデルを平均+0.5BLEUで改善することを示す。
論文 参考訳(メタデータ) (2023-09-27T17:48:14Z) - E2TIMT: Efficient and Effective Modal Adapter for Text Image Machine
Translation [40.62692548291319]
テキスト画像機械翻訳(TIMT)は、画像に埋め込まれたテキストを、あるソース言語から別のターゲット言語に翻訳することを目的としている。
既存の手法では、2段階のカスケードと1段階のエンドツーエンドアーキテクチャの両方が異なる問題に悩まされている。
本稿では,既存のOCRおよびMTデータセットからの知識をフル活用したエンドツーエンドTIMTモデルを提案する。
論文 参考訳(メタデータ) (2023-05-09T04:25:52Z) - Source and Target Bidirectional Knowledge Distillation for End-to-end
Speech Translation [88.78138830698173]
外部テキストベースNMTモデルからのシーケンスレベルの知識蒸留(SeqKD)に注目した。
E2E-STモデルを訓練し、パラフレーズ転写を1つのデコーダで補助タスクとして予測する。
論文 参考訳(メタデータ) (2021-04-13T19:00:51Z) - A Multi-Stage Attentive Transfer Learning Framework for Improving
COVID-19 Diagnosis [49.3704402041314]
新型コロナの診断を改善するための多段階集中移動学習フレームワークを提案する。
提案するフレームワークは、複数のソースタスクと異なるドメインのデータから知識を学習し、正確な診断モデルを訓練する3つの段階からなる。
本稿では,肺CT画像のマルチスケール表現を学習するための自己教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-01-14T01:39:19Z) - Unified Mandarin TTS Front-end Based on Distilled BERT Model [5.103126953298633]
TTSフロントエンドにおける2つの重要なタスクに対処するために,プレトレーニング言語モデル(PLM)に基づくモデルを提案する。
トレーニング済みの中国語BERTをテキストエンコーダとして使用し、マルチタスク学習技術を用いて2つのTSフロントエンドタスクに適応する。
TTSフロントエンドモジュール全体を軽量で統一された方法で実行することができ、モバイルデバイスへの展開により友好的です。
論文 参考訳(メタデータ) (2020-12-31T02:34:57Z) - Tight Integrated End-to-End Training for Cascaded Speech Translation [40.76367623739673]
カスケード音声翻訳モデルは、離散的および非微分可能転写に依存している。
直接音声翻訳は、誤りの伝播を避けるための代替手法である。
この研究は、カスケードコンポーネント全体を1つのエンドツーエンドのトレーニング可能なモデルにまとめることの可能性を探る。
論文 参考訳(メタデータ) (2020-11-24T15:43:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。