論文の概要: UDAAN - Machine Learning based Post-Editing tool for Document
Translation
- arxiv url: http://arxiv.org/abs/2203.01644v1
- Date: Thu, 3 Mar 2022 11:08:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-04 15:17:08.087417
- Title: UDAAN - Machine Learning based Post-Editing tool for Document
Translation
- Title(参考訳): UDAAN - 文書翻訳のための機械学習ベースのポスト編集ツール
- Authors: Ayush Maheshwari, Ajay Ravindran, Venkatapathy Subramanian, Akshay
Jalan, Ganesh Ramakrishnan
- Abstract要約: UDAANはオープンソースのポスト編集ツールで、さまざまな言語で公開可能な標準文書を作成するために、手作業による編集作業を減らすことができる。
UDAANにはエンドツーエンドの機械翻訳と後編集パイプラインがあり、ユーザーは文書をアップロードして生のMT出力を得ることができる。
本ツールでは,文書をスクラッチから翻訳する基本手法と比較して,翻訳時間を約3倍に高速化する。
- 参考スコア(独自算出の注目度): 16.143443845623196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce UDAAN, an open-source post-editing tool that can reduce manual
editing efforts to quickly produce publishable-standard documents in different
languages. UDAAN has an end-to-end Machine Translation (MT) plus post-editing
pipeline wherein users can upload a document to obtain raw MT output. Further,
users can edit the raw translations using our tool. UDAAN offers several
advantages: a) Domain-aware, vocabulary-based lexical constrained MT. b)
source-target and target-target lexicon suggestions for users. Replacements are
based on the source and target texts lexicon alignment. c) Suggestions for
translations are based on logs created during user interaction. d)
Source-target sentence alignment visualisation that reduces the cognitive load
of users during editing. e) Translated outputs from our tool are available in
multiple formats: docs, latex, and PDF. Although we limit our experiments to
English-to-Hindi translation for the current study, our tool is independent of
the source and target languages. Experimental results based on the usage of the
tools and users feedback show that our tool speeds up the translation time
approximately by a factor of three compared to the baseline method of
translating documents from scratch.
- Abstract(参考訳): オープンソースポスト編集ツールであるUDAANを導入し、様々な言語で出版可能な標準文書を迅速に作成するための手作業による編集作業を削減できる。
UDAANにはエンドツーエンドの機械翻訳(MT)と後編集パイプラインがあり、ユーザーは文書をアップロードして生のMT出力を得ることができる。
さらに、ユーザはツールを使って生の翻訳を編集できる。
UDAANにはいくつかの利点がある。
a) ドメインを意識した語彙に基づく語彙制約MT
b) 利用者に対するソースターゲット及びターゲットターゲットレキシコン提案
置換はソースとターゲットテキストのレキシコンアライメントに基づいて行われる。
c) 翻訳の提案は,ユーザインタラクション中に作成されたログに基づいて行う。
d)編集中のユーザの認知負荷を低減させるソースターゲット文アライメント可視化。
e) ツールからの翻訳アウトプットは、ドキュメント、ラテックス、PDFなど、複数のフォーマットで利用可能です。
実験を英語からヒンディー語への翻訳に限定するが、このツールはソース言語とターゲット言語とは独立している。
ツールとユーザからのフィードバックをもとにした実験結果から,本ツールは文書をスクラッチから翻訳するベースライン法と比較して,約3倍の速度で翻訳時間を短縮できることがわかった。
関連論文リスト
- Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - Identifying Context-Dependent Translations for Evaluation Set Production [11.543673351369183]
文脈対応機械翻訳への移行に対する大きな障害は、優れた評価指標とテストセットがないことである。
我々は,5つの現象を翻訳するために文脈を必要とする文を含む並列文書のサブセットを識別するツールであるCTXPROを開発した。
パイプラインへの入力は、文脈的な文ペアを選択する手作り、言語ごと、言語的にインフォームドされたルールのセットである。
論文 参考訳(メタデータ) (2023-11-04T04:29:08Z) - Contextual Refinement of Translations: Large Language Models for Sentence and Document-Level Post-Editing [12.843274390224853]
大規模言語モデル(LLM)は、様々な自然言語処理タスクでかなりの成功を収めている。
ニューラルネットワーク翻訳における最先端性能は,まだ達成できていない。
直接翻訳者ではなく,自動編集者 (APE) としてLLMを適用することを提案する。
論文 参考訳(メタデータ) (2023-10-23T12:22:15Z) - NSOAMT -- New Search Only Approach to Machine Translation [0.0]
機械翻訳に対する新しい検索のみのアプローチ」が採用され、他の技術の遅さと不正確さに対処した。
この考え方は、特定の意味的意味を組み合わす単語のインクリメンタルな集合をインデクシングすることによって、ネイティブ言語レコードと翻訳言語との対応プロセスを作成することができるソリューションを開発することを目的としている。
論文 参考訳(メタデータ) (2023-09-19T11:12:21Z) - ParroT: Translating during Chat using Large Language Models tuned with
Human Translation and Feedback [90.20262941911027]
ParroTはチャット中の翻訳機能を強化し、規制するフレームワークである。
具体的には、ParroTは、翻訳データを命令フォロースタイルに書き換える。
本稿では,ParroTモデルを微調整するための3つの命令タイプを提案する。
論文 参考訳(メタデータ) (2023-04-05T13:12:00Z) - Easy Guided Decoding in Providing Suggestions for Interactive Machine
Translation [14.615314828955288]
我々は、新しい制約付きデコーディングアルゴリズム、すなわちPrefix Suffix Guided Decoding (PSGD)を提案する。
PSGDは平均で10.87ドルのBLEUと8.62ドルのBLEUをWeTSとWMT 2022のTranslation Suggestionデータセットで改善している。
論文 参考訳(メタデータ) (2022-11-14T03:40:02Z) - WeTS: A Benchmark for Translation Suggestion [32.10692757420455]
我々はemphWeTSと呼ばれる翻訳提案(TS)のためのベンチマークデータセットを作成する。
また,TSの性能を大幅に向上できる合成コーパスを生成するための新しい手法を提案する。
我々のモデルは、ドイツ語、ドイツ語、中国語、英語、中国語の4つの翻訳方向について、ステートオフ・ザ・アート(SOTA)の結果を達成する。
論文 参考訳(メタデータ) (2021-10-11T10:52:17Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - Self-Attention with Cross-Lingual Position Representation [112.05807284056337]
位置符号化(PE)は、自然言語処理タスクの単語順序情報を保存し、入力シーケンスの固定位置インデックスを生成する。
語順が異なるため、言語間の位置関係をモデル化することは、SANがこの問題に取り組むのに役立つ。
我々は、入力文のバイリンガル認識潜在構造をモデル化するために、言語間位置表現によるSANを拡大する。
論文 参考訳(メタデータ) (2020-04-28T05:23:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。