論文の概要: Local Translation Services for Neglected Languages
- arxiv url: http://arxiv.org/abs/2101.01628v2
- Date: Wed, 13 Jan 2021 20:09:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-11 14:38:45.165972
- Title: Local Translation Services for Neglected Languages
- Title(参考訳): 否定言語のためのローカル翻訳サービス
- Authors: David Noever, Josh Kalin, Matt Ciolino, Dom Hambrick, and Gerry Dozier
- Abstract要約: この研究は、Leonardo da Vinci氏が実践しているように、1)ハッカースピーカー("l33t")と2)逆("mirror")の2つの歴史的に興味深いが難解な言語を翻訳している。
オリジナルのコントリビューションでは、50メガバイト未満のハッカースピーカーを流用している。
長い短期記憶、リカレントニューラルネットワーク(LSTM-RNN)は、最大10,000のバイリンガル文対から構築された英対外翻訳サービスを実証する以前の研究を拡張している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Taking advantage of computationally lightweight, but high-quality translators
prompt consideration of new applications that address neglected languages.
Locally run translators for less popular languages may assist data projects
with protected or personal data that may require specific compliance checks
before posting to a public translation API, but which could render reasonable,
cost-effective solutions if done with an army of local, small-scale pair
translators. Like handling a specialist's dialect, this research illustrates
translating two historically interesting, but obfuscated languages: 1)
hacker-speak ("l33t") and 2) reverse (or "mirror") writing as practiced by
Leonardo da Vinci. The work generalizes a deep learning architecture to
translatable variants of hacker-speak with lite, medium, and hard vocabularies.
The original contribution highlights a fluent translator of hacker-speak in
under 50 megabytes and demonstrates a generator for augmenting future datasets
with greater than a million bilingual sentence pairs. The long short-term
memory, recurrent neural network (LSTM-RNN) extends previous work demonstrating
an English-to-foreign translation service built from as little as 10,000
bilingual sentence pairs. This work further solves the equivalent translation
problem in twenty-six additional (non-obfuscated) languages and rank orders
those models and their proficiency quantitatively with Italian as the most
successful and Mandarin Chinese as the most challenging. For neglected
languages, the method prototypes novel services for smaller niche translations
such as Kabyle (Algerian dialect) which covers between 5-7 million speakers but
one which for most enterprise translators, has not yet reached development. One
anticipates the extension of this approach to other important dialects, such as
translating technical (medical or legal) jargon and processing health records.
- Abstract(参考訳): 計算量的に軽量だが高品質な翻訳者を利用すると、無視された言語を扱う新しいアプリケーションを考えることができる。
人気の低い言語でローカルに実行される翻訳者は、公開翻訳apiに投稿する前に特定のコンプライアンスチェックが必要な保護されたデータや個人データを持つデータプロジェクトを支援することができる。
専門家の方言を扱うのと同様に、この研究は歴史的に興味深いが難解な2つの言語を翻訳している: 1) ハッカーピーク(l33t)と2) レオナルド・ダ・ヴィンチが実践した逆(または「ミラー」)である。
この研究は、lite、medium、hard vocabularyで翻訳可能なhacker-speakにディープラーニングアーキテクチャを一般化している。
オリジナルのコントリビュートでは、50メガバイト未満のハッカー講演の流行った翻訳者が強調され、100万以上のバイリンガル文ペアで将来のデータセットを補完するジェネレータが示されている。
長い短期記憶、リカレントニューラルネットワーク(LSTM-RNN)は、最大10,000のバイリンガル文対から構築された英対外翻訳サービスを実証する以前の研究を拡張している。
この研究はさらに26の言語で同等の翻訳問題を解決し、それらのモデルをランク付けし、イタリア語を最も成功し、中国語を最も挑戦的な言語とした。
無視された言語に対しては、Kabyle(アルジェ方言)のようなより小さなニッチな翻訳のための新しいサービスのプロトタイプが作成されている。
1つは、技術的な(医学的または法的)用語の翻訳や健康記録の処理など、他の重要な方言へのこのアプローチの拡張を予想している。
関連論文リスト
- Decoupled Vocabulary Learning Enables Zero-Shot Translation from Unseen Languages [55.157295899188476]
ニューラルマシン翻訳システムは、異なる言語の文を共通の表現空間にマッピングすることを学ぶ。
本研究では、この仮説を未知の言語からのゼロショット翻訳により検証する。
この設定により、全く見えない言語からのゼロショット翻訳が可能になることを実証する。
論文 参考訳(メタデータ) (2024-08-05T07:58:58Z) - Do Multilingual Language Models Think Better in English? [24.713751471567395]
翻訳テストは多言語言語モデルの性能を向上させるための一般的な手法である。
本研究では,外部翻訳システムの必要性を克服する自己翻訳という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-02T15:29:22Z) - On the Copying Problem of Unsupervised NMT: A Training Schedule with a
Language Discriminator Loss [120.19360680963152]
unsupervised neural machine translation (UNMT)は多くの言語で成功している。
コピー問題、すなわち、入力文の一部を翻訳として直接コピーする問題は、遠い言語対に共通している。
本稿では,言語識別器の損失を取り入れた,シンプルだが効果的な訓練スケジュールを提案する。
論文 参考訳(メタデータ) (2023-05-26T18:14:23Z) - Chain-of-Dictionary Prompting Elicits Translation in Large Language Models [100.47154959254937]
大規模言語モデル(LLM)は多言語ニューラルマシン翻訳(MNMT)において驚くほど優れた性能を示した
入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを拡張して翻訳能力を引き出す新しい方法であるCoDを提案する。
論文 参考訳(メタデータ) (2023-05-11T05:19:47Z) - Train Global, Tailor Local: Minimalist Multilingual Translation into
Endangered Languages [26.159803412486955]
人道的なシナリオでは、非常に低いリソース言語への翻訳は、しばしば普遍的な翻訳エンジンを必要としない。
我々は、多くのリッチリソース言語からの翻訳資源を活用して、最大限の翻訳品質を効率よく生成しようと試みている。
事前訓練済みの大規模多言語モデルをまずドメイン/テキストに適用し,次いでリソースの少ない言語に適応することが最善であることがわかった。
論文 参考訳(メタデータ) (2023-05-05T23:22:16Z) - Bootstrapping Multilingual Semantic Parsers using Large Language Models [28.257114724384806]
複数の言語にまたがって英語データセットを転送するTranslation-trainパラダイムは、タスク固有の多言語モデルをトレーニングする上で重要な要素である。
本稿では,多言語意味解析の課題を考察し,英語データセットを複数言語に翻訳する大規模言語モデル(LLM)の有効性と柔軟性を示す。
論文 参考訳(メタデータ) (2022-10-13T19:34:14Z) - Unsupervised Transfer Learning in Multilingual Neural Machine
Translation with Cross-Lingual Word Embeddings [72.69253034282035]
我々は、言語独立多言語文表現を活用し、新しい言語に容易に一般化する。
複数のロマンス言語を含むベースシステムを用いてポルトガル語から盲目的に復号し、ポルトガル語では36.4 BLEU、ロシア語では12.8 BLEUのスコアを得た。
非反復的逆翻訳によるより実用的な適応アプローチを探求し、高品質の翻訳を生産するモデルの能力を活用します。
論文 参考訳(メタデータ) (2021-03-11T14:22:08Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。