Fugu-MT 論文翻訳(概要): Terminology Rarity Predicts Catastrophic Failure in LLM Translation of Low-Resource Ancient Languages: Evidence from Ancient Greek

論文の概要: Terminology Rarity Predicts Catastrophic Failure in LLM Translation of Low-Resource Ancient Languages: Evidence from Ancient Greek

arxiv url: http://arxiv.org/abs/2602.24119v1
Date: Fri, 27 Feb 2026 15:57:15 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-02 19:48:24.500141
Title: Terminology Rarity Predicts Catastrophic Failure in LLM Translation of Low-Resource Ancient Languages: Evidence from Ancient Greek
Title（参考訳）: 低資源古代の言語翻訳における破滅的な失敗を予測するターミノロジー : 古代ギリシア語からの証拠
Authors: James L. Zainaldin, Cameron Pattison, Manuela Marai, Jacob Wu, Mark J. Schiefsky,
Abstract要約: 本研究では,大規模言語モデル(LLM)機械翻訳(MT)の最初の体系的,参照不要な人的評価について述べる。ギリシャの医師ガレン・デ・ペルガムム(Galen de Pergamum, CE)による2つの著作から20段の文章からなる商業用 LLM による翻訳を評価した。標準的な自動評価指標(BLEU, chrF++, METEOR, ROUGE-L, BERTScore, COME)を用いて翻訳品質を評価する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This study presents the first systematic, reference-free human evaluation of large language model (LLM) machine translation (MT) for Ancient Greek (AG) technical prose. We evaluate translations by three commercial LLMs (Claude, Gemini, ChatGPT) of twenty paragraph-length passages from two works by the Greek physician Galen of Pergamum (ca. 129-216 CE): On Mixtures, which has two published English translations, and On the Composition of Drugs according to Kinds, which has never been fully translated into English. We assess translation quality using both standard automated evaluation metrics (BLEU, chrF++, METEOR, ROUGE-L, BERTScore, COMET, BLEURT) and expert human evaluation via a modified Multidimensional Quality Metrics (MQM) framework applied to all 60 translations by a team of domain specialists. On the previously translated expository text, LLMs achieved high translation quality (mean MQM score 95.2/100), with performance approaching expert level. On the untranslated pharmacological text, aggregate quality was lower (79.9/100) but with high variance driven by two passages presenting extreme terminological density; excluding these, scores converged to within 4 points of the translated text. Terminology rarity, operationalized via corpus frequency in the literary Diorisis Ancient Greek Corpus, emerged as a strong predictor of translation failure (r = -.97 for passage-level quality on the untranslated text). Automated metrics showed moderate correlation with human judgment overall on the text with a wide quality spread (Composition), but no metric discriminated among high-quality translations. We discuss implications for the use of LLMs in Classical scholarship and for the design of automated evaluation pipelines for low-resource ancient languages.
Abstract（参考訳）: 本研究では,古代ギリシア語(AG)技術用機械翻訳(MT)の体系的,参照不要な人為的評価を初めて行った。我々は,ギリシャ人医師ガレン・デ・ペルガムム(Galen de Pergamum, CE)の2つの著作から20段の文章からなる商業用LLM(Claude, Gemini, ChatGPT)の翻訳を評価した。我々は、標準的な自動評価指標(BLEU, chrF++, METEOR, ROUGE-L, BERTScore, COMET, BLEURT)と、ドメインの専門家チームによる60の翻訳すべてに適用された修正多次元品質指標(MQM)フレームワークを用いて、翻訳品質を評価する。以前に翻訳された説明文では、LLMは高い翻訳品質(平均 MQM スコア 95.2/100)を達成し、性能は専門家レベルに近づいた。翻訳されていない薬理学的テキストでは、集合的品質は低い(79.9/100)が、極端な用語的密度を示す2つの節によって引き起こされる高い分散は、翻訳されたテキストの4点以内のスコアに収束した。ターミノロジーの希少さは、文学『ディオリシス・古代ギリシアのコーパス』のコーパス周波数で操作され、翻訳失敗の強い予測因子として登場した(r = -.97)。自動測定では, 品質の広さのテキストに対して, 人的判断と適度な相関が認められたが, 高品質翻訳では判別されなかった。古典学におけるLLMの利用と,低リソースの古代言語を対象とした自動評価パイプラインの設計について論じる。

関連論文リスト

Beyond Literal Mapping: Benchmarking and Improving Non-Literal Translation Evaluation [57.11989521509119]
本稿では,特殊なサブエージェントを起動するリフレクティブコアエージェントを中心に,エージェント翻訳評価フレームワークを提案する。実験の結果、RATEの有効性が示され、現在の測定値と比較して少なくとも3.2メタスコアの改善が達成された。
論文参考訳（メタデータ） (2026-01-12T09:03:42Z)
DITING: A Multi-Agent Evaluation Framework for Benchmarking Web Novel Translation [31.1561882673283]
DIINGは、Webノベル翻訳のための最初の総合的な評価フレームワークである。 AgentEvalは専門家による検討をシミュレートし、語彙オーバーラップを超えて翻訳品質を評価する。誤りラベルとスカラー品質スコアを付加した300文対のメタ評価データセットであるMetricAlignを開発した。
論文参考訳（メタデータ） (2025-10-10T08:10:10Z)
Languages Still Left Behind: Toward a Better Multilingual Machine Translation Benchmark [11.068031181100276]
我々は4つの言語(Asante Twi, Japanese, Jinghpaw, South Azerbaijani)のデータを研究する。真の多言語評価に対するベンチマークの適合性の重大な欠点を明らかにする。我々は、ドメイン汎用および文化的に中立なソーステキストを使用する多言語MTベンチマークを提唱する。
論文参考訳（メタデータ） (2025-08-28T07:52:42Z)
Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering [68.3400058037817]
本稿では,TREQA(Translation Evaluation via Question-Answering)について紹介する。我々は,TREQAが最先端のニューラルネットワークとLLMベースのメトリクスより優れていることを示し,代用段落レベルの翻訳をランク付けする。
論文参考訳（メタデータ） (2025-04-10T09:24:54Z)
How Good Are LLMs for Literary Translation, Really? Literary Translation Evaluation with Humans and LLMs [23.247387152595067]
LITEVAL-CORPUSは、検証された人間の翻訳と9つの文学機械翻訳システムからの出力を含む並列コーパスである。複雑度の異なる評価手法の整合性と妥当性について検討する。総合評価の結果,人文翻訳はLLM翻訳より一貫して優れていたことが示唆された。
論文参考訳（メタデータ） (2024-10-24T12:48:03Z)
Discourse Centric Evaluation of Machine Translation with a Densely Annotated Parallel Corpus [82.07304301996562]
本稿では,江らが導入した大規模並列コーパスBWBに基づいて,リッチな談話アノテーションを用いた新しいデータセットを提案する。ソース言語とターゲット言語の談話構造と類似点と相違点について検討する。我々はMT出力が人間の翻訳と基本的に異なることを発見した。
論文参考訳（メタデータ） (2023-05-18T17:36:41Z)
Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models [57.80514758695275]
機械翻訳(MT)の品質を評価するために,大規模言語モデル(LLM)を用いることで,システムレベルでの最先端のパフォーマンスを実現する。我々はtextbftexttError Analysis Prompting (EAPrompt) と呼ばれる新しいプロンプト手法を提案する。本手法は,多次元品質指標 (MQM) とtextitproduces を用いて,システムレベルとセグメントレベルの両方で説明可能かつ信頼性の高いMT評価を行う。
論文参考訳（メタデータ） (2023-03-24T05:05:03Z)
Rethink about the Word-level Quality Estimation for Machine Translation from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文参考訳（メタデータ） (2022-09-13T02:37:12Z)
HOPE: A Task-Oriented and Human-Centric Evaluation Framework Using Professional Post-Editing Towards More Effective MT Evaluation [0.0]
本研究では,機械翻訳出力のためのタスク指向・人間中心評価フレームワークHOPEを紹介する。一般的に発生するエラーの種類は限られており、各翻訳ユニットにエラー重大度レベルを反映する誤差ペナルティポイント(EPP)の幾何学的進行を伴うスコアリングモデルを使用する。このアプローチには、異なるシステムからの完全なMT出力を測定および比較する能力、品質に対する人間の認識を示す能力、MT出力を高品質にするために必要となる労力の即時見積、低コストで高速なアプリケーション、より高いIRRなど、いくつかの重要な利点がある。
論文参考訳（メタデータ） (2021-12-27T18:47:43Z)
On the Limitations of Cross-lingual Encoders as Exposed by Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文参考訳（メタデータ） (2020-05-03T22:10:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。