論文の概要: GWLAN: General Word-Level AutocompletioN for Computer-Aided Translation
- arxiv url: http://arxiv.org/abs/2105.14913v1
- Date: Mon, 31 May 2021 12:27:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:21:10.948841
- Title: GWLAN: General Word-Level AutocompletioN for Computer-Aided Translation
- Title(参考訳): GWLAN: コンピュータ翻訳のための汎用ワードレベルオートコンプリートN
- Authors: Huayang Li, Lemao Liu, Guoping Huang, Shuming Shi
- Abstract要約: オートコンプリート(オートコンプリート)は、コンピュータ支援翻訳(CAT)の中核機能である。
本稿では、実世界のCATシナリオから一般語レベルの自動補完(GWLAN)タスクを提案し、このトピックの研究を促進するために、最初の公開ベンチマークを構築した。
- 参考スコア(独自算出の注目度): 40.69663094185573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computer-aided translation (CAT), the use of software to assist a human
translator in the translation process, has been proven to be useful in
enhancing the productivity of human translators. Autocompletion, which suggests
translation results according to the text pieces provided by human translators,
is a core function of CAT. There are two limitations in previous research in
this line. First, most research works on this topic focus on sentence-level
autocompletion (i.e., generating the whole translation as a sentence based on
human input), but word-level autocompletion is under-explored so far. Second,
almost no public benchmarks are available for the autocompletion task of CAT.
This might be among the reasons why research progress in CAT is much slower
compared to automatic MT. In this paper, we propose the task of general
word-level autocompletion (GWLAN) from a real-world CAT scenario, and construct
the first public benchmark to facilitate research in this topic. In addition,
we propose an effective method for GWLAN and compare it with several strong
baselines. Experiments demonstrate that our proposed method can give
significantly more accurate predictions than the baseline methods on our
benchmark datasets.
- Abstract(参考訳): CAT(Computer-Aided Translation)は、人間の翻訳者を支援するソフトウェアであり、人間の翻訳者の生産性を高めるのに有用であることが証明されている。
オートコンプリート(Autocompletion)は、人間の翻訳者が提供するテキスト部分に従って翻訳結果を提案するもので、CATの中核機能である。
この系統の以前の研究には2つの制限がある。
第一に、この話題に関するほとんどの研究は、文レベルのオートコンプリート(つまり、人間の入力に基づく文として全翻訳を生成する)に焦点を当てているが、語レベルのオートコンプリートは、これまでのところ未調査である。
第二に、CATのオートコンプリートタスクには、ほとんど公開ベンチマークが利用できない。
このことが、自動MTと比較してCATの進歩がはるかに遅い理由の1つかもしれない。
本稿では、実世界のCATシナリオから一般語レベルの自動補完(GWLAN)タスクを提案し、このトピックの研究を促進するための最初の公開ベンチマークを構築する。
さらに,GWLANの有効手法を提案し,それをいくつかの強力なベースラインと比較する。
実験により,提案手法はベンチマークデータセットのベースライン手法よりもはるかに正確な予測を行うことができることを示した。
関連論文リスト
- Evaluating Automatic Metrics with Incremental Machine Translation Systems [55.78547133890403]
商業機械翻訳からなるデータセットを導入し,12の翻訳方向から6年間にわたって収集した。
商業システムは時間とともに改善され、より最近の翻訳の好みに基づいて機械翻訳(MT)メトリクスを評価することができると仮定する。
論文 参考訳(メタデータ) (2024-07-03T17:04:17Z) - Critical Learning Periods: Leveraging Early Training Dynamics for Efficient Data Pruning [9.106234291496884]
CAT(Checkpoints Across Time)と呼ばれる新しいデータ解析手法を提案する。
我々は、COMET-QE、LASER、LaBSEなど、いくつかのデータプルーニング技術に対してCATをベンチマークする。
英語-ドイツ語、英語-フランス語、英語-スワヒリ翻訳タスクに適用すると、CATは完全なデータセットと同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-29T19:21:49Z) - Cross-lingual neural fuzzy matching for exploiting target-language
monolingual corpora in computer-aided translation [0.0]
本稿では,ドメイン内ターゲット言語(TL)モノリンガルコーパスの活用を目的とした,新しいニューラルアプローチを提案する。
本手法は,TL単言語コーパスから翻訳提案を検索するための言語間文の埋め込みと,後処理を推定するためのニューラルモデルに頼っている。
本稿では,これらの手法を4つの言語ペア上で自動評価することにより,TMベースのCAT環境におけるモノリンガルテキストの活用に成功していることを示す。
論文 参考訳(メタデータ) (2024-01-16T14:00:28Z) - INarIG: Iterative Non-autoregressive Instruct Generation Model For
Word-Level Auto Completion [11.72797729874854]
Word-Level Auto Completion (WLAC)は、ソース文、翻訳コンテキスト、人型文字シーケンスが与えられた対象単語を予測する。
InarIG(Iterative Non-autoregressive Instruct Generation)モデルを提案する。
我々のモデルは低周波単語を扱うのに優れており、WMT22およびベンチマークデータセットの最先端結果が得られ、最大10%以上の予測精度が向上する。
論文 参考訳(メタデータ) (2023-11-30T02:39:38Z) - On Search Strategies for Document-Level Neural Machine Translation [51.359400776242786]
文書レベルのニューラルネットワーク変換(NMT)モデルは、ドキュメント全体にわたってより一貫性のある出力を生成する。
そこで本研究では,デコードにおける文脈認識翻訳モデルをどのように活用するか,という質問に答えることを目的としている。
論文 参考訳(メタデータ) (2023-06-08T11:30:43Z) - Tuning Traditional Language Processing Approaches for Pashto Text
Classification [0.0]
本研究の目的は,Pashto自動テキスト分類システムの構築である。
本研究は、統計的およびニューラルネットワーク機械学習技術の両方を含む複数のモデルを比較する。
本研究では,分類アルゴリズムとTFIDF特徴抽出法を用いて,平均試験精度94%を得た。
論文 参考訳(メタデータ) (2023-05-04T22:57:45Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - Non-Parametric Domain Adaptation for End-to-End Speech Translation [72.37869362559212]
E2E-ST(End-to-End Speech Translation)は、エラー伝播の低減、レイテンシの低減、パラメータの削減などにより注目されている。
本稿では,E2E-STシステムのドメイン適応を実現するために,ドメイン固有のテキスト翻訳コーパスを活用する新しい非パラメトリック手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T11:41:02Z) - Constraint Translation Candidates: A Bridge between Neural Query
Translation and Cross-lingual Information Retrieval [45.88734029123836]
本稿では,QTのオープンターゲット語彙検索空間を,検索インデックスデータベースから抽出した重要な単語の集合に限定することで,問題を緩和する新しい手法を提案する。
提案手法を実単語CLIRシステムで活用し,検討した。
論文 参考訳(メタデータ) (2020-10-26T15:27:51Z) - Pretrained Transformers for Text Ranking: BERT and Beyond [53.83210899683987]
このサーベイは、トランスフォーマーとして知られるニューラルネットワークアーキテクチャによるテキストランキングの概要を提供する。
トランスフォーマーと自己教師型事前学習の組み合わせは、自然言語処理のパラダイムシフトの原因となっている。
論文 参考訳(メタデータ) (2020-10-13T15:20:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。