論文の概要: Sampling and Filtering of Neural Machine Translation Distillation Data
- arxiv url: http://arxiv.org/abs/2104.00664v1
- Date: Thu, 1 Apr 2021 17:54:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-02 17:27:02.008087
- Title: Sampling and Filtering of Neural Machine Translation Distillation Data
- Title(参考訳): ニューラルネットワーク翻訳蒸留データのサンプリングとフィルタリング
- Authors: Vil\'em Zouhar
- Abstract要約: 教師モデルの最高スコア仮説は、新しいモデル(学生)の訓練に一般的に使用される
注意深いアップサンプリングと元のデータとの結合は、元のデータまたは合成データまたはそれらの直接の組み合わせに対するトレーニングよりも優れたパフォーマンスをもたらすことが示されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In most of neural machine translation distillation or stealing scenarios, the
goal is to preserve the performance of the target model (teacher). The
highest-scoring hypothesis of the teacher model is commonly used to train a new
model (student). If reference translations are also available, then better
hypotheses (with respect to the references) can be upsampled and poor
hypotheses either removed or undersampled.
This paper explores the importance sampling method landscape (pruning,
hypothesis upsampling and undersampling, deduplication and their combination)
with English to Czech and English to German MT models using standard MT
evaluation metrics. We show that careful upsampling and combination with the
original data leads to better performance when compared to training only on the
original or synthesized data or their direct combination.
- Abstract(参考訳): ニューラルマシン翻訳の蒸留や盗みのシナリオのほとんどにおいて、目標はターゲットモデル(教師)のパフォーマンスを維持することである。
教師モデルの最も高い意味を持つ仮説は、新しいモデル(学生)の訓練によく用いられる。
参照翻訳も利用可能であれば、より良い仮説(参照に関して)がアップサンプリングされ、弱い仮説は削除またはアンダーサンプリングされる。
本稿では, 標準MT評価指標を用いて, 英語からチェコ語, 英語, ドイツ語のMTモデルへのランドスケープ(プルーニング, 仮説アップサンプリング, アンダーサンプリング, 重複, およびそれらの組み合わせ)の抽出の重要性について検討する。
注意深いアップサンプリングと元のデータの組み合わせは、オリジナルのデータや合成データ、あるいはそれらの直接的な組み合わせのトレーニングに比べて、パフォーマンスが向上することを示す。
関連論文リスト
- Importance of Disjoint Sampling in Conventional and Transformer Models for Hyperspectral Image Classification [2.1223532600703385]
本稿では、ハイパースペクトル画像分類(HSIC)タスク上でSOTAモデルをトレーニングするための革新的な不整合サンプリング手法を提案する。
重なりのないトレーニング,検証,テストデータを分離することにより,提案手法は,トレーニングや検証中に露出していないピクセルをどの程度正確に分類できるかを,より公平に評価することができる。
この厳密な手法は、SOTAモデルの発展と、ハイパースペクトルセンサーを用いた大規模陸地マッピングへの実際の応用に欠かせない。
論文 参考訳(メタデータ) (2024-04-23T11:40:52Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - Impossible Distillation: from Low-Quality Model to High-Quality Dataset & Model for Summarization and Paraphrasing [59.58984194238254]
本稿では,パラフレーズと文要約のための新しい枠組みであるImpossible Distillationを提案する。
極端に大規模な教師モデルに依存した先行研究とは異なり、パラフラスティックな近在性と事前学習されたLMを仮説化し、検証する。
これらの部分空間から世代を同定して蒸留することにより、インポッシブル蒸留は、GPT2スケールのLMでも高品質なデータセットとモデルを生成する。
論文 参考訳(メタデータ) (2023-05-26T05:19:24Z) - Probing BERT's priors with serial reproduction chains [8.250374560598493]
我々はシリアル再生チェーンを用いてBERTの先行を探索する。
接地構造継手分布の特異かつ一貫した推定器を得ることができる。
得られた先行分布から得られた文の語彙的・統語的統計値と,接地真実コーパス分布の語彙的・統語的統計値を比較する。
論文 参考訳(メタデータ) (2022-02-24T17:42:28Z) - Evaluation of HTR models without Ground Truth Material [2.4792948967354236]
手書き文字認識モデルの開発における評価は容易である。
しかし、開発からアプリケーションに切り替えると、評価プロセスはトリッキーになります。
我々は,レキシコンに基づく評価が,レキシコンに基づく手法と競合することを示す。
論文 参考訳(メタデータ) (2022-01-17T01:26:09Z) - Self-Normalized Importance Sampling for Neural Language Modeling [97.96857871187052]
本研究では, 自己正規化重要度サンプリングを提案し, これまでの研究と比較すると, 本研究で考慮された基準は自己正規化されており, さらに修正を行う必要はない。
提案する自己正規化重要度サンプリングは,研究指向と生産指向の両方の自動音声認識タスクにおいて競合することを示す。
論文 参考訳(メタデータ) (2021-11-11T16:57:53Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Self-Training Sampling with Monolingual Data Uncertainty for Neural
Machine Translation [98.83925811122795]
並列データを補完するために最も情報に富んだ単言語文を選択することでサンプリング手順を改善することを提案する。
並列データから抽出したバイリンガル辞書を用いて単言語文の不確実性を計算した。
大規模WMT英語$Rightarrow$Germanと英語$Rightarrow$ Chineseデータセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2021-06-02T05:01:36Z) - Understanding and Improving Lexical Choice in Non-Autoregressive
Translation [98.11249019844281]
低周波ワードの有用な情報を復元するために、生データをNATモデルに公開することを提案する。
提案手法は,WMT14英語-ドイツ語とWMT16ルーマニア英語-英語データセットのSOTA NAT性能を27.8BLEU点,33.8BLEU点まで向上させる。
論文 参考訳(メタデータ) (2020-12-29T03:18:50Z) - A Hybrid Approach for Improved Low Resource Neural Machine Translation
using Monolingual Data [0.0]
多くの言語ペアは低リソースであるため、利用可能な並列データの量や品質は、ニューラルネットワーク翻訳(NMT)モデルをトレーニングするのに十分ではない。
本研究は, 後方モデルと前方モデルの両方が単言語的対象データから恩恵を受けられるような, 新たなアプローチを提案する。
論文 参考訳(メタデータ) (2020-11-14T22:18:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。