論文の概要: Exploring Document-Level Literary Machine Translation with Parallel
Paragraphs from World Literature
- arxiv url: http://arxiv.org/abs/2210.14250v1
- Date: Tue, 25 Oct 2022 18:03:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 14:05:14.859298
- Title: Exploring Document-Level Literary Machine Translation with Parallel
Paragraphs from World Literature
- Title(参考訳): 世界文学のパラレル段落による文書レベルの文芸機械翻訳の検討
- Authors: Katherine Thai and Marzena Karpinska and Kalpesh Krishna and Bill Ray
and Moira Inghilleri and John Wieting and Mohit Iyyer
- Abstract要約: 文献翻訳者は, 機械翻訳段落よりも, 84%の割合で人文翻訳を好んでいる。
我々は、通常のMT出力よりも出力が好ましい後編集モデルを専門家によって69%の速度で訓練する。
- 参考スコア(独自算出の注目度): 35.1398797683712
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Literary translation is a culturally significant task, but it is bottlenecked
by the small number of qualified literary translators relative to the many
untranslated works published around the world. Machine translation (MT) holds
potential to complement the work of human translators by improving both
training procedures and their overall efficiency. Literary translation is less
constrained than more traditional MT settings since translators must balance
meaning equivalence, readability, and critical interpretability in the target
language. This property, along with the complex discourse-level context present
in literary texts, also makes literary MT more challenging to computationally
model and evaluate. To explore this task, we collect a dataset (Par3) of
non-English language novels in the public domain, each aligned at the paragraph
level to both human and automatic English translations. Using Par3, we discover
that expert literary translators prefer reference human translations over
machine-translated paragraphs at a rate of 84%, while state-of-the-art
automatic MT metrics do not correlate with those preferences. The experts note
that MT outputs contain not only mistranslations, but also discourse-disrupting
errors and stylistic inconsistencies. To address these problems, we train a
post-editing model whose output is preferred over normal MT output at a rate of
69% by experts. We publicly release Par3 at
https://github.com/katherinethai/par3/ to spur future research into literary
MT.
- Abstract(参考訳): 文学翻訳は文化的に重要な課題であるが、世界中の多くの未翻訳作品と比較して、少数の文学翻訳者がボトルネックとなっている。
機械翻訳(MT)は、訓練手順と全体的な効率を改善することにより、人間の翻訳者の作業を補完する可能性がある。
翻訳者は対象言語における等価性、可読性、批判的解釈可能性のバランスをとる必要があるため、文学的翻訳は従来のmt設定よりも制約が小さい。
この性質は、文学テキストに存在する複雑な談話レベルの文脈と共に、文学的MTを計算的にモデル化し評価することがより困難になる。
この課題を探求するため,パブリックドメインにおける非英語小説のデータセット(Par3)を,人文翻訳と自動翻訳の両方に段落レベルに並べて収集した。
par3を用いて,機械翻訳された段落よりも人間の参照翻訳を84%の確率で好むが,最先端の自動mt指標はそれらの嗜好と相関しないことがわかった。
専門家は、mt出力は誤訳だけでなく、言論不和の誤りやスタイル的不一致も含んでいると指摘する。
これらの問題に対処するために、専門家による通常のmt出力よりも出力が好ましいポスト編集モデルを69%のレートで訓練する。
Par3をhttps://github.com/katherinethai/par3/で公開しています。
関連論文リスト
- (Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts [52.18246881218829]
本稿では,大言語モデル(LLM)をベースとした多エージェントフレームワークを,TransAgentsという企業として実装した。
本システムの有効性を評価するため,モノリンガル・ヒューマン・プライス(MHP)とバイリンガル・LLM・プライス(BLP)の2つの革新的な評価戦略を提案する。
論文 参考訳(メタデータ) (2024-05-20T05:55:08Z) - Crossing the Threshold: Idiomatic Machine Translation through Retrieval
Augmentation and Loss Weighting [66.02718577386426]
慣用的な翻訳と関連する問題を簡易に評価する。
我々は,変圧器をベースとした機械翻訳モデルが慣用的な翻訳に対して正しくデフォルトとなる点を明らかにするための合成実験を行った。
自然慣用句の翻訳を改善するために, 単純かつ効果的な2つの手法を導入する。
論文 参考訳(メタデータ) (2023-10-10T23:47:25Z) - Do GPTs Produce Less Literal Translations? [20.095646048167612]
大規模言語モデル(LLM)は多くの自然言語生成や理解タスクに対処できる汎用言語モデルとして登場した。
GPTからの英語(E-X)からの翻訳はリテラルが低い傾向にあり、機械翻訳の品質指標に類似またはより良いスコアが示されることがわかりました。
論文 参考訳(メタデータ) (2023-05-26T10:38:31Z) - Discourse Centric Evaluation of Machine Translation with a Densely
Annotated Parallel Corpus [82.07304301996562]
本稿では,江らが導入した大規模並列コーパスBWBに基づいて,リッチな談話アノテーションを用いた新しいデータセットを提案する。
ソース言語とターゲット言語の談話構造と類似点と相違点について検討する。
我々はMT出力が人間の翻訳と基本的に異なることを発見した。
論文 参考訳(メタデータ) (2023-05-18T17:36:41Z) - Large language models effectively leverage document-level context for
literary translation, but critical errors persist [32.54546652197316]
大規模言語モデル(LLM)は、幅広い文レベルの翻訳データセット上での最先端技術と競合する。
我々は,Gpt-3.5 (text-davinci-003) LLM) を用いて文節全体を翻訳し,高品質な翻訳を行うという厳密な評価を通して示す。
論文 参考訳(メタデータ) (2023-04-06T17:27:45Z) - A Bilingual Parallel Corpus with Discourse Annotations [82.07304301996562]
本稿では,Jiang et al. (2022)で最初に導入された大きな並列コーパスであるBWBと,注釈付きテストセットについて述べる。
BWBコーパスは、専門家によって英語に翻訳された中国の小説で構成されており、注釈付きテストセットは、様々な談話現象をモデル化する機械翻訳システムの能力を調査するために設計されている。
論文 参考訳(メタデータ) (2022-10-26T12:33:53Z) - Creativity in translation: machine translation as a constraint for
literary texts [3.3453601632404073]
本稿では、機械翻訳(MT)、後編集(PE)、援助なし翻訳(HT)の3つのモダリティを用いた、クルト・ヴォネグートによる英語からカタルーニャ語、オランダ語への短い物語の翻訳に関する研究結果を紹介する。
文学データに基づいてトレーニングされたニューラルMTシステムは、現在、創造的な翻訳に必要な機能を持っていない。
さらに重要なことは、MTを使って生の出力を後処理すると、翻訳者の創造性が制限され、結果として翻訳の質が低下し、出版に適さないことだ、と専門家は述べている。
論文 参考訳(メタデータ) (2022-04-12T09:27:00Z) - It is Not as Good as You Think! Evaluating Simultaneous Machine
Translation on Interpretation Data [58.105938143865906]
我々は、実解釈データに基づいて、SiMTシステムをトレーニングし、テストすべきであると主張している。
以上の結果から,SiMTモデルが翻訳データと解釈データで評価された場合,最大13.83BLEUスコアの違いが明らかになった。
論文 参考訳(メタデータ) (2021-10-11T12:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。