論文の概要: Large language models effectively leverage document-level context for
literary translation, but critical errors persist
- arxiv url: http://arxiv.org/abs/2304.03245v2
- Date: Fri, 7 Apr 2023 12:52:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-10 14:06:23.156387
- Title: Large language models effectively leverage document-level context for
literary translation, but critical errors persist
- Title(参考訳): 大規模言語モデルは文語翻訳に文書レベルの文脈を効果的に活用するが、臨界エラーは継続する
- Authors: Marzena Karpinska and Mohit Iyyer
- Abstract要約: 大規模言語モデル(LLM)は、幅広い文レベルの翻訳データセット上での最先端技術と競合する。
我々は,Gpt-3.5 (text-davinci-003) LLM) を用いて文節全体を翻訳し,高品質な翻訳を行うという厳密な評価を通して示す。
- 参考スコア(独自算出の注目度): 32.54546652197316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are competitive with the state of the art on a
wide range of sentence-level translation datasets. However, their ability to
translate paragraphs and documents remains unexplored because evaluation in
these settings is costly and difficult. We show through a rigorous human
evaluation that asking the Gpt-3.5 (text-davinci-003) LLM to translate an
entire literary paragraph (e.g., from a novel) at once results in
higher-quality translations than standard sentence-by-sentence translation
across 18 linguistically-diverse language pairs (e.g., translating into and out
of Japanese, Polish, and English). Our evaluation, which took approximately 350
hours of effort for annotation and analysis, is conducted by hiring translators
fluent in both the source and target language and asking them to provide both
span-level error annotations as well as preference judgments of which system's
translations are better. We observe that discourse-level LLM translators commit
fewer mistranslations, grammar errors, and stylistic inconsistencies than
sentence-level approaches. With that said, critical errors still abound,
including occasional content omissions, and a human translator's intervention
remains necessary to ensure that the author's voice remains intact. We publicly
release our dataset and error annotations to spur future research on evaluation
of document-level literary translation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広い文レベルの翻訳データセット上での最先端技術と競合する。
しかし、これらの設定による評価は費用がかかり難いため、段落や文書を翻訳する能力は未解明のままである。
我々は、Gpt-3.5 (text-davinci-003) LLM) に文節全体(小説など)を一度に翻訳するよう求める厳密な人間の評価を通して、言語的に異なる18の言語対(日本語、ポーランド語、英語への翻訳など)にわたる標準文の翻訳よりも高品質な翻訳を行うことを示す。
アノテーションと分析に約350時間を費やした評価は、ソース言語とターゲット言語の両方に精通した翻訳者を雇い、スパンレベルのエラーアノテーションと、システムの翻訳が優れているかどうかの選択判断の両方を提供するよう求めた。
会話レベルのllm翻訳者は文レベルのアプローチよりも誤訳や文法誤り、スタイル的不整合が少ないことが観察された。
それにもかかわらず、時折内容の欠落を含む重大なエラーがまだ増えており、著者の声がそのままであることを保証するためには、人間の翻訳者の介入が必要である。
ドキュメントレベルの文芸翻訳の評価に関する今後の研究を促進するため,データセットとエラーアノテーションを公開します。
関連論文リスト
- A Data Selection Approach for Enhancing Low Resource Machine Translation Using Cross-Lingual Sentence Representations [0.4499833362998489]
本研究は,既存のデータセットが特に騒々しい英語-マラティー語対の事例に焦点を当てた。
データ品質問題の影響を軽減するために,言語間文表現に基づくデータフィルタリング手法を提案する。
その結果,IndicSBERTによるベースラインポストフィルタよりも翻訳品質が大幅に向上した。
論文 参考訳(メタデータ) (2024-09-04T13:49:45Z) - GPT-4 vs. Human Translators: A Comprehensive Evaluation of Translation Quality Across Languages, Domains, and Expertise Levels [18.835573312027265]
本研究では,人間の翻訳者に対するLarge Language Models(LLMs)の翻訳品質を包括的に評価する。
また, GPT-4は, 中高の翻訳者よりも遅れが小さいため, 中高の翻訳者に対して同等に機能することがわかった。
論文 参考訳(メタデータ) (2024-07-04T05:58:04Z) - (Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts [52.18246881218829]
本稿では,大言語モデル(LLM)をベースとした多エージェントフレームワークを,TransAgentsという企業として実装した。
本システムの有効性を評価するため,モノリンガル・ヒューマン・プライス(MHP)とバイリンガル・LLM・プライス(BLP)の2つの革新的な評価戦略を提案する。
論文 参考訳(メタデータ) (2024-05-20T05:55:08Z) - Building Accurate Translation-Tailored LLMs with Language Aware Instruction Tuning [57.323716555996114]
オフターゲット翻訳は、特に低リソース言語では未解決の問題である。
最近の研究は、翻訳命令の機能を強調するために高度なプロンプト戦略を設計するか、LLMの文脈内学習能力を活用している。
本研究では,LLMの命令追従能力(特に翻訳方向)を向上させるために,2段階の微調整アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-03-21T13:47:40Z) - Translation Errors Significantly Impact Low-Resource Languages in
Cross-Lingual Learning [26.49647954587193]
本研究では,翻訳の不整合が存在し,XNLIの低リソース言語に不均等に影響を及ぼすことを示す。
このような矛盾を識別するために,人間翻訳テキストと機械翻訳ターゲットテキストにおけるゼロショット評価の差を計測する手法を提案する。
また,Hindi と Urdu という2つの言語に対して,人間が翻訳したテストインスタンスを手動で再注釈することで,翻訳エラーが存在することも確認した。
論文 参考訳(メタデータ) (2024-02-03T08:22:51Z) - Enhancing Document-level Translation of Large Language Model via
Translation Mixed-instructions [24.025242477280983]
機械翻訳のための既存の大きな言語モデル(LLM)は、典型的には文レベルの翻訳命令に基づいて微調整される。
この課題は、文レベルのカバレッジの問題から生じ、文書のその後の文は転写されないままである。
様々な長さの文レベルと文書レベルの翻訳命令を微調整LLMに結合する手法を提案する。
論文 参考訳(メタデータ) (2024-01-16T03:28:26Z) - The Best of Both Worlds: Combining Human and Machine Translations for
Multilingual Semantic Parsing with Active Learning [50.320178219081484]
人文翻訳と機械翻訳の両方の長所を生かした能動的学習手法を提案する。
理想的な発話選択は、翻訳されたデータの誤りとバイアスを著しく低減することができる。
論文 参考訳(メタデータ) (2023-05-22T05:57:47Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - Exploring Document-Level Literary Machine Translation with Parallel
Paragraphs from World Literature [35.1398797683712]
文献翻訳者は, 機械翻訳段落よりも, 84%の割合で人文翻訳を好んでいる。
我々は、通常のMT出力よりも出力が好ましい後編集モデルを専門家によって69%の速度で訓練する。
論文 参考訳(メタデータ) (2022-10-25T18:03:34Z) - Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文 参考訳(メタデータ) (2022-09-13T02:37:12Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。