論文の概要: Evaluating LLMs on Chinese Idiom Translation
- arxiv url: http://arxiv.org/abs/2508.10421v1
- Date: Thu, 14 Aug 2025 07:52:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.217846
- Title: Evaluating LLMs on Chinese Idiom Translation
- Title(参考訳): 中国語のイディオム翻訳におけるLLMの評価
- Authors: Cai Yang, Yao Dou, David Heineman, Xiaofeng Wu, Wei Xu,
- Abstract要約: 近年の機械翻訳の進展にもかかわらず、中国語のイディオム翻訳についてはほとんど知られていない。
中国語の慣用句翻訳のための包括的な誤り分類を行うフレームワークであるEvalを紹介する。
- 参考スコア(独自算出の注目度): 12.580058582681968
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Idioms, whose figurative meanings usually differ from their literal interpretations, are common in everyday language, especially in Chinese, where they often contain historical references and follow specific structural patterns. Despite recent progress in machine translation with large language models, little is known about Chinese idiom translation. In this work, we introduce IdiomEval, a framework with a comprehensive error taxonomy for Chinese idiom translation. We annotate 900 translation pairs from nine modern systems, including GPT-4o and Google Translate, across four domains: web, news, Wikipedia, and social media. We find these systems fail at idiom translation, producing incorrect, literal, partial, or even missing translations. The best-performing system, GPT-4, makes errors in 28% of cases. We also find that existing evaluation metrics measure idiom quality poorly with Pearson correlation below 0.48 with human ratings. We thus develop improved models that achieve F$_1$ scores of 0.68 for detecting idiom translation errors.
- Abstract(参考訳): 比喩的な意味が通訳の解釈と異なるイディオムは、日常言語、特に中国語で一般的であり、歴史的参照を多く含み、特定の構造パターンに従う。
大規模な言語モデルによる機械翻訳の進歩にもかかわらず、中国語の慣用句翻訳についてはほとんど知られていない。
本研究では,中国語のイディオム翻訳のための包括的誤り分類手法であるIdiomEvalを紹介する。
GPT-4oやGoogle Translateを含む9つの現代システムから、Web、ニュース、ウィキペディア、ソーシャルメディアの4つのドメインに900の翻訳ペアを注釈付けします。
これらのシステムはイディオム翻訳で失敗し、誤った、リテラル、部分的、あるいは欠落した翻訳を生成する。
最高のパフォーマンスシステムであるGPT-4は28%のケースでエラーを発生させる。
また,既存の評価指標では,Pearsonの相関が0.48以下で評価され,評価精度が低かった。
そこで我々は,イディオム翻訳誤りを検出するためのF$_1$スコア0.68を実現する改良モデルを開発した。
関連論文リスト
- Chengyu-Bench: Benchmarking Large Language Models for Chinese Idiom Understanding and Use [1.5129424416840094]
チェンギュ・ベンチ(Chengyu-Bench)は、様々なコーパスから得られた1,765個の共通イディオムをカバーする2,937個の人間認証例からなる。
先行するLCMを評価し,95%以上の精度で評価するが,Open Clozeの精度は85%,トップ1の精度は40%に過ぎなかった。
Chengyu-Bench は LLM がイディオムの感情を確実に評価できる一方で、適切な使用に欠かせない文化的・文脈的なニュアンスを理解するのに苦慮していることを示した。
論文 参考訳(メタデータ) (2025-06-22T17:26:09Z) - Decoupled Vocabulary Learning Enables Zero-Shot Translation from Unseen Languages [55.157295899188476]
ニューラルマシン翻訳システムは、異なる言語の文を共通の表現空間にマッピングすることを学ぶ。
本研究では、この仮説を未知の言語からのゼロショット翻訳により検証する。
この設定により、全く見えない言語からのゼロショット翻訳が可能になることを実証する。
論文 参考訳(メタデータ) (2024-08-05T07:58:58Z) - Improving LLM Abilities in Idiomatic Translation [2.8692611791027893]
NLLBやGPTのような言語モデル(LLM)では、イディオムの翻訳は依然として難しい課題である。
我々のゴールは、慣用的な言語のLLM処理を改善することで、翻訳の忠実度を高めることである。
文化的なニュアンスを維持し、翻訳されたテキストが意図と感情の共鳴を維持することを保証するため、これは大きな社会的影響を持つ。
論文 参考訳(メタデータ) (2024-07-03T21:34:26Z) - Crossing the Threshold: Idiomatic Machine Translation through Retrieval
Augmentation and Loss Weighting [66.02718577386426]
慣用的な翻訳と関連する問題を簡易に評価する。
我々は,変圧器をベースとした機械翻訳モデルが慣用的な翻訳に対して正しくデフォルトとなる点を明らかにするための合成実験を行った。
自然慣用句の翻訳を改善するために, 単純かつ効果的な2つの手法を導入する。
論文 参考訳(メタデータ) (2023-10-10T23:47:25Z) - Mitigating Hallucinations and Off-target Machine Translation with
Source-Contrastive and Language-Contrastive Decoding [53.84948040596055]
修正された復号化目標を用いて、障害ケースを緩和する2つの関連手法を提案する。
大規模多言語モデルM2M-100 (418M) とSMaLL-100の実験は、これらの手法が幻覚やターゲット外の翻訳を抑制することを示した。
論文 参考訳(メタデータ) (2023-09-13T17:15:27Z) - Translate Meanings, Not Just Words: IdiomKB's Role in Optimizing
Idiomatic Translation with Language Models [57.60487455727155]
idiomsは非構成的な性質を持ち、Transformerベースのシステムに特別な課題を提起する。
既存の知識ベース(KB)を使ってイディオムを置き換える伝統的な手法は、しばしばスケールとコンテキストの認識を欠いている。
大規模なLMを用いて開発した多言語イディオムKB (IdiomKB) を提案する。
このKBはBLOOMZ (7.1B)、Alpaca (7B)、InstructGPT (6.7B)のようなより小さなモデルによるより良い翻訳を促進する
論文 参考訳(メタデータ) (2023-08-26T21:38:31Z) - Can Transformer be Too Compositional? Analysing Idiom Processing in
Neural Machine Translation [55.52888815590317]
リテラル表現とは異なり、イディオムの意味はその部分から直接従わない。
NMTモデルは、しばしばイディオムを正確に、過剰に生成し、文字通り翻訳することができない。
支配的なNMTモデルであるTransformerの力学において,イディオムの非合成性が反映されているかを検討する。
論文 参考訳(メタデータ) (2022-05-30T17:59:32Z) - PETCI: A Parallel English Translation Dataset of Chinese Idioms [0.0]
現在の機械翻訳モデルは、イディオム翻訳が不十分であるのに対して、多くの翻訳データセットではイディオムはスパースである。
中国語のイディオムの並列翻訳データセットについて,人間と機械の双方による翻訳を改善することを目的とした。
論文 参考訳(メタデータ) (2022-02-19T03:16:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。