Fugu-MT 論文翻訳(概要): A 2-step Framework for Automated Literary Translation Evaluation: Its Promises and Pitfalls

論文の概要: A 2-step Framework for Automated Literary Translation Evaluation: Its Promises and Pitfalls

arxiv url: http://arxiv.org/abs/2412.01340v1
Date: Mon, 02 Dec 2024 10:07:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:11:22.499237
Title: A 2-step Framework for Automated Literary Translation Evaluation: Its Promises and Pitfalls
Title（参考訳）: 自動翻訳評価のための2段階フレームワーク -その約束と落とし穴-
Authors: Sheikh Shafayat, Dongkeun Yoon, Woori Jang, Jiwoo Choi, Alice Oh, Seohyon Jung,
Abstract要約: 文芸機械翻訳を評価するための2段階パイプラインの実現可能性を提案し,評価する。私たちのフレームワークは、文学翻訳に適した細粒度で解釈可能なメトリクスを提供します。
参考スコア（独自算出の注目度）: 15.50296318831118
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In this work, we propose and evaluate the feasibility of a two-stage pipeline to evaluate literary machine translation, in a fine-grained manner, from English to Korean. The results show that our framework provides fine-grained, interpretable metrics suited for literary translation and obtains a higher correlation with human judgment than traditional machine translation metrics. Nonetheless, it still fails to match inter-human agreement, especially in metrics like Korean Honorifics. We also observe that LLMs tend to favor translations generated by other LLMs, and we highlight the necessity of developing more sophisticated evaluation methods to ensure accurate and culturally sensitive machine translation of literary works.
Abstract（参考訳）: 本研究では,英語から韓国語への文芸機械翻訳を詳細に評価するための2段階パイプラインの実現可能性を提案し,評価する。その結果,本フレームワークは文体翻訳に適した細粒度で解釈可能な指標を提供し,従来の機械翻訳指標よりも人間の判断と高い相関関係が得られることがわかった。それでも、韓国の名誉のような指標では、人間同士の合意に一致しない。また,文学作品の正確で文化に敏感な機械翻訳を確実にするために,より洗練された評価手法を開発することの必要性を強調した。

関連論文リスト

MAS-LitEval : Multi-Agent System for Literary Translation Quality Assessment [5.703909513367545]
文学翻訳は、文化的ニュアンスと様式的な要素を保存する必要がある。 BLEUやMETEORといった従来のメトリクスは、語彙重なりに重点を置いているため、評価に失敗する。言語モデル(LLM)を用いたマルチエージェントシステムMAS-LitEvalを提案する。
論文参考訳（メタデータ） (2025-06-17T05:33:40Z)
LiTransProQA: an LLM-based Literary Translation evaluation metric with Professional Question Answering [21.28047224832753]
LiTransProQA(リトランプロQA)は、文学翻訳評価のために設計されたLLMベースの質問応答フレームワークである。プロの文芸翻訳家や研究者の洞察を融合させ、文学機器、文化理解、権威的な声に焦点を当てている。 LiTransProQAは現在の指標を大幅に上回り、相関関係の最大0.07倍、最先端の指標を15ポイント以上上回っている。
論文参考訳（メタデータ） (2025-05-08T17:12:56Z)
Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering [68.3400058037817]
本稿では,TREQA(Translation Evaluation via Question-Answering)について紹介する。我々は,TREQAが最先端のニューラルネットワークとLLMベースのメトリクスより優れていることを示し,代用段落レベルの翻訳をランク付けする。
論文参考訳（メタデータ） (2025-04-10T09:24:54Z)
Lost in Literalism: How Supervised Training Shapes Translationese in LLMs [51.04435855143767]
大規模言語モデル(LLM)は機械翻訳において顕著な成功を収めた。しかし、過度にリテラルと不自然な翻訳を特徴とする翻訳は、依然として永続的な課題である。我々は、黄金の基準を磨き、不自然なトレーニングインスタンスをフィルタリングするなど、これらのバイアスを軽減する方法を導入する。
論文参考訳（メタデータ） (2025-03-06T12:14:45Z)
DRT: Deep Reasoning Translation via Long Chain-of-Thought [89.48208612476068]
本稿では,長いCoTをニューラルネットワーク翻訳(MT)に適用する試みであるDRTを紹介する。まず、既存の文献から模範文や比喩文を含む文を抽出し、その後、長い思考を通してこれらの文を翻訳する多エージェントフレームワークを開発する。 Qwen2.5とLLama-3.1をバックボーンとして使用することで、DRTモデルは機械翻訳中に思考プロセスを学ぶことができる。
論文参考訳（メタデータ） (2024-12-23T11:55:33Z)
LLM-based Translation Inference with Iterative Bilingual Understanding [52.46978502902928]
大規模言語モデル(LLM)の言語間機能に基づいた,新しい反復的バイリンガル理解翻訳法を提案する。 LLMの言語横断的能力により、ソース言語とターゲット言語を別々にコンテキスト理解することが可能になる。提案したIBUTは、いくつかの強力な比較法より優れている。
論文参考訳（メタデータ） (2024-10-16T13:21:46Z)
Benchmarking LLMs for Translating Classical Chinese Poetry:Evaluating Adequacy, Fluency, and Elegance [43.148203559785095]
古典漢詩を英語に翻訳するための適切なベンチマーク(PoetMT)を導入する。この課題は、文化的、歴史的に重要な内容の翻訳に適当であるだけでなく、言語的な優雅さや詩的な優雅さへの厳格な固執も必要である。本稿では,古典詩に関する知識を取り入れた検索型機械翻訳手法であるRATを提案する。
論文参考訳（メタデータ） (2024-08-19T12:34:31Z)
Understanding and Addressing the Under-Translation Problem from the Perspective of Decoding Objective [72.83966378613238]
最新のニューラル・マシン・トランスレーション(NMT)システムでは、アンダー・トランスレーションとオーバー・トランスレーションの2つの課題が残っている。我々は,NMTにおけるアンダートランスレーションの根本原因を詳細に分析し,デコード目的の観点から解説する。本研究は,低翻訳の検知器としてEOS(End Of Sentence)予測の信頼性を活用し,低翻訳のリスクが高い候補を罰する信頼性に基づくペナルティを強化することを提案する。
論文参考訳（メタデータ） (2024-05-29T09:25:49Z)
(Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts [52.18246881218829]
本稿では,大言語モデル(LLM)をベースとした多エージェントフレームワークを,TransAgentsという企業として実装した。本システムの有効性を評価するため,モノリンガル・ヒューマン・プライス(MHP)とバイリンガル・LLM・プライス(BLP)の2つの革新的な評価戦略を提案する。
論文参考訳（メタデータ） (2024-05-20T05:55:08Z)
Adapting Large Language Models for Document-Level Machine Translation [46.370862171452444]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを大幅に進歩させた。近年の研究では、中程度のLLMはタスク固有の微調整後、より大きなLLMよりも優れていることが示されている。本研究では,特定の言語対に対する文書レベルの機械翻訳(DocMT)にLLMを適用することに焦点を当てた。
論文参考訳（メタデータ） (2024-01-12T09:29:13Z)
Benchmarking Machine Translation with Cultural Awareness [50.183458829028226]
文化関連コンテンツの翻訳は、効果的な異文化間コミュニケーションに不可欠である。多くの文化特化項目(CSI)は言語間の翻訳を欠いていることが多い。この難しさは機械翻訳システムの文化的意識の分析を妨げる。
論文参考訳（メタデータ） (2023-05-23T17:56:33Z)
Large language models effectively leverage document-level context for literary translation, but critical errors persist [32.54546652197316]
大規模言語モデル(LLM)は、幅広い文レベルの翻訳データセット上での最先端技術と競合する。我々は,Gpt-3.5 (text-davinci-003) LLM) を用いて文節全体を翻訳し,高品質な翻訳を行うという厳密な評価を通して示す。
論文参考訳（メタデータ） (2023-04-06T17:27:45Z)
Exploring Document-Level Literary Machine Translation with Parallel Paragraphs from World Literature [35.1398797683712]
文献翻訳者は, 機械翻訳段落よりも, 84%の割合で人文翻訳を好んでいる。我々は、通常のMT出力よりも出力が好ましい後編集モデルを専門家によって69%の速度で訓練する。
論文参考訳（メタデータ） (2022-10-25T18:03:34Z)
On the Limitations of Cross-lingual Encoders as Exposed by Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文参考訳（メタデータ） (2020-05-03T22:10:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。