論文の概要: LCP-dropout: Compression-based Multiple Subword Segmentation for Neural
Machine Translation
- arxiv url: http://arxiv.org/abs/2202.13590v1
- Date: Mon, 28 Feb 2022 07:49:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-02 05:51:09.250880
- Title: LCP-dropout: Compression-based Multiple Subword Segmentation for Neural
Machine Translation
- Title(参考訳): LCP-dropout:ニューラルマシン翻訳のための圧縮に基づく複数単語セグメンテーション
- Authors: Keita Nonaka, Kazutaka Yamanouchi, Tomohiro I, Tsuyoshi Okita,
Kazutaka Shimada, Hiroshi Sakamoto
- Abstract要約: データ圧縮アルゴリズムに基づくサブワードセグメンテーションのためのシンプルで効果的な前処理手法を提案する。
BPE/BPEドロップアウトは従来の手法と比較して最も高速で効果的な手法の1つである。
BPE/BPE/ドロップアウトを改善した複数単語セグメンテーションのためのLCP-dropoutを提案する。
- 参考スコア(独自算出の注目度): 5.505045114759599
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this study, we propose a simple and effective preprocessing method for
subword segmentation based on a data compression algorithm. Compression-based
subword segmentation has recently attracted significant attention as a
preprocessing method for training data in Neural Machine Translation. Among
them, BPE/BPE-dropout is one of the fastest and most effective method compared
to conventional approaches. However, compression-based approach has a drawback
in that generating multiple segmentations is difficult due to the determinism.
To overcome this difficulty, we focus on a probabilistic string algorithm,
called locally-consistent parsing (LCP), that has been applied to achieve
optimum compression. Employing the probabilistic mechanism of LCP, we propose
LCP-dropout for multiple subword segmentation that improves BPE/BPE-dropout,
and show that it outperforms various baselines in learning from especially
small training data.
- Abstract(参考訳): 本研究では,データ圧縮アルゴリズムに基づくサブワードセグメンテーションの簡易かつ効果的な前処理手法を提案する。
圧縮に基づくサブワードセグメンテーションはニューラルマシン翻訳におけるトレーニングデータの事前処理手法として注目されている。
このうち、BPE/BPEドロップアウトは従来の手法と比較して最も高速で効果的な手法の1つである。
しかしながら、圧縮に基づくアプローチは、決定論のために複数のセグメンテーションを生成することが難しいという欠点がある。
このような難易度を克服するため,我々は,最適圧縮を達成するために適用された,局所一貫性解析(lcp)と呼ばれる確率的文字列アルゴリズムに着目した。
LCPの確率的メカニズムを用いて,BPE/BPE-dropoutを改善する複数単語セグメンテーションのためのLCP-dropoutを提案する。
関連論文リスト
- Theoretical Analysis of Byte-Pair Encoding [0.8655526882770742]
Byte-Pair (BPE) はサブワードトークン化の手法として広く使われている。
BPEは、最適ペア符号化の圧縮効率を最悪の要因に近似することを示した。
論文 参考訳(メタデータ) (2024-11-13T15:04:02Z) - ECNR: Efficient Compressive Neural Representation of Time-Varying
Volumetric Datasets [6.3492793442257085]
圧縮型ニューラル表現は、大量のデータセットを管理する従来の圧縮方法に代わる有望な代替手段として登場した。
本稿では、時間変化データ圧縮のための効率的なニューラル表現(ECNR)ソリューションを提案する。
複数のデータセットでECNRの有効性を示し、それを最先端の圧縮手法と比較する。
論文 参考訳(メタデータ) (2023-10-02T06:06:32Z) - SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural
Machine Translation [51.881877192924414]
サブワードセグメンテーションはニューラルマシン翻訳(NMT)に不可欠な前処理ステップである
本稿では,自己教師型ニューラルネットワークサブワードセグメンテーション手法であるSelfSegを紹介する。
SelfSegはトレーニング/デコードがはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする。
論文 参考訳(メタデータ) (2023-07-31T04:38:47Z) - Single Model Ensemble for Subword Regularized Models in Low-Resource
Machine Translation [25.04086897886412]
サブワード正規化は、トレーニング中に複数のサブワードセグメンテーションを使用して、ニューラルネットワーク翻訳モデルの堅牢性を改善する。
この矛盾に対処するための推論戦略を提案する。
実験結果から,提案手法はサブワード正規化を訓練したモデルの性能を向上させることが示された。
論文 参考訳(メタデータ) (2022-03-25T09:25:47Z) - DenseCLIP: Extract Free Dense Labels from CLIP [130.3830819077699]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、オープンボキャブラリゼロショット画像認識において画期的な進歩を遂げた。
DenseCLIP+はSOTAトランスダクティブなゼロショットセマンティックセグメンテーション法を大きなマージンで上回る。
我々の発見は、DenseCLIPが高密度予測タスクの信頼性の高い新たな監視源となることを示唆している。
論文 参考訳(メタデータ) (2021-12-02T09:23:01Z) - Single-channel speech separation using Soft-minimum Permutation
Invariant Training [60.99112031408449]
教師付き音声分離における長寿命問題は、それぞれの分離された音声信号の正しいラベルを見つけることである。
Permutation Invariant Training (PIT) はラベルあいまいさ問題に対処する上で有望な解決策であることが示されている。
そこで本研究では,PITの不効率に対処する確率的最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-16T17:25:05Z) - Deep Gaussian Processes for Few-Shot Segmentation [66.08463078545306]
少数ショットのセグメンテーションは難しい作業であり、いくつかの注釈付きサンプルから一般化可能な表現を抽出する必要がある。
ガウス過程(GP)回帰に基づく数ショット学習者定式化を提案する。
PASCAL-5i と COCO-20i では mIoU スコアが68.1 と 49.8 である。
論文 参考訳(メタデータ) (2021-03-30T17:56:32Z) - PowerGossip: Practical Low-Rank Communication Compression in
Decentralized Deep Learning [62.440827696638664]
本稿では,近隣労働者間のモデル差を直接圧縮する簡単なアルゴリズムを提案する。
中央集権的なディープラーニングのためにPowerSGDにインスパイアされたこのアルゴリズムは、パワーステップを使用して、1ビットあたりの転送情報を最大化する。
論文 参考訳(メタデータ) (2020-08-04T09:14:52Z) - Dynamic Programming Encoding for Subword Segmentation in Neural Machine
Translation [80.38621085548013]
本稿では,文をサブワード単位にトークン化するための新しいセグメンテーションアルゴリズムである動的プログラミング(DPE)を提案する。
ターゲットセグメンテーションを見つけるために、正確なログ境界推定と正確なMAP推定を可能にする混合文字サブワード変換器を提案する。
論文 参考訳(メタデータ) (2020-05-03T05:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。