論文の概要: "Be My Cheese?": Cultural Nuance Benchmarking for Machine Translation in Multilingual LLMs
- arxiv url: http://arxiv.org/abs/2602.04729v1
- Date: Wed, 04 Feb 2026 16:35:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.628319
- Title: "Be My Cheese?": Cultural Nuance Benchmarking for Machine Translation in Multilingual LLMs
- Title(参考訳): Be My Cheese?:Multilingual LLMにおける機械翻訳のための文化的ニュアンスベンチマーク
- Authors: Madison Van Doren, Casey Ford, Jennifer Barajas, Cory Holland,
- Abstract要約: 本稿では,機械翻訳における文化的ローカライゼーションを評価するための大規模評価ベンチマークを提案する。
言語毎に5つのネイティブスピーカーレーダを持つ15言語を対象に,多言語大言語モデル (LLM) を7つ評価した。
GPT-5 (2.10/3)、Claude Sonnet 3.7 (1.97/3)、Mistral Medium 3.1 (1.84/3)は破滅的な失敗が少ない最強の層である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a large-scale human evaluation benchmark for assessing cultural localisation in machine translation produced by state-of-the-art multilingual large language models (LLMs). Existing MT benchmarks emphasise token-level and grammatical accuracy, but of ten overlook pragmatic and culturally grounded competencies required for real-world localisation. Building on a pilot study of 87 translations across 20 languages, we evaluate 7 multilingual LLMs across 15 target languages with 5 native-speaker raters per language. Raters scored both full-text translations and segment-level instances of culturally nuanced language (idioms, puns, holidays, and culturally embedded concepts) on an ordinal 0-3 quality scale; segment ratings additionally included an NA option for untranslated segments. Across full-text evaluations, mean overall quality is modest (1.68/3): GPT-5 (2.10/3), Claude Sonnet 3.7 (1.97/3), and Mistral Medium 3.1 (1.84/3) form the strongest tier with fewer catastrophic failures. Segment-level results show sharp category effects: holidays (2.20/3) and cultural concepts (2.19/3) translate substantially better than idioms (1.65/3) and puns (1.45/3), and idioms are most likely to be left untranslated. These findings demonstrate a persistent gap between grammatical adequacy and cultural resonance. To our knowledge, this is the first multilingual, human-annotated benchmark focused explicitly on cultural nuance in translation and localisation, highlighting the need for culturally informed training data, improved cross-lingual pragmatics, and evaluation paradigms that better reflect real-world communicative competence.
- Abstract(参考訳): 本稿では,現在最先端の多言語大言語モデル(LLM)による機械翻訳における文化的ローカライゼーションを評価するための大規模人的評価ベンチマークを提案する。
既存のMTベンチマークではトークンレベルの精度と文法的正確性を強調しているが、現実のローカライゼーションに必要な実用的かつ文化的根拠を持った能力は10ある。
20言語にまたがる87の翻訳のパイロット研究に基づいて、15言語にまたがる7つの多言語LLMを、言語毎に5つの母語話者ラッカーで評価した。
ラッカーは、通常の0-3品質尺度で、フルテキストの翻訳と、文化的なニュアンス言語(イディオム、句、祝日、文化的に埋め込まれた概念)のセグメントレベルの両方をスコア付けした。
GPT-5 (2.10/3)、Claude Sonnet 3.7 (1.97/3)、Mistral Medium 3.1 (1.84/3)は破滅的な失敗が少ない最強の層である。
休暇(2.20/3)と文化概念(2.19/3)はイディオム1.65/3)とパント1.45/3よりかなり良く翻訳され、イディオムは翻訳されていない可能性が高い。
以上の結果から,文法的妥当性と文化共鳴との相違が指摘された。
私たちの知る限り、これは、翻訳とローカライゼーションにおける文化的ニュアンスを明確に重視し、文化的にインフォームドされたトレーニングデータの必要性を強調し、言語間の実用性を改善し、現実世界のコミュニケーション能力をよりよく反映する評価パラダイムを強調した、初めてのマルチリンガルな人手によるベンチマークです。
関連論文リスト
- Evaluating Modern Large Language Models on Low-Resource and Morphologically Rich Languages:A Cross-Lingual Benchmark Across Cantonese, Japanese, and Turkish [12.286855282078305]
GPT-4o, GPT-4, Claude3.5Sonnet, LLaMA3.1, MistralLarge2, LLaMA-2Chat13B, Mistral7B Instructを評価した。
我々のベンチマークは、オープンドメイン質問応答、文書要約、英語からXへの翻訳、文化的根拠のある対話の4つのタスクにまたがっている。
論文 参考訳(メタデータ) (2025-11-05T22:09:53Z) - MMA-ASIA: A Multilingual and Multimodal Alignment Framework for Culturally-Grounded Evaluation [91.22008265721952]
MMA-ASIAは、アジア8か国と10か国を対象とする人為的、多言語的、マルチモーダルなベンチマークに重点を置いている。
これは、テキスト、画像(視覚的質問応答)、音声の3つのモードにまたがる入力レベルで整列された最初のデータセットである。
i) 国間の文化的認識格差、(ii) 言語間の整合性、(iii) 言語間の整合性、(iv) 文化知識の一般化、(v) 基礎的妥当性を評価する5次元評価プロトコルを提案する。
論文 参考訳(メタデータ) (2025-10-07T14:12:12Z) - Disentangling Language and Culture for Evaluating Multilingual Large Language Models [48.06219053598005]
本稿では,LLMの多言語機能を包括的に評価するデュアル評価フレームワークを提案する。
言語媒体と文化的文脈の次元に沿って評価を分解することにより、LLMが言語間を横断的に処理する能力の微妙な分析を可能にする。
論文 参考訳(メタデータ) (2025-05-30T14:25:45Z) - MAKIEval: A Multilingual Automatic WiKidata-based Framework for Cultural Awareness Evaluation for LLMs [37.98920430188422]
MAKIEvalは、大規模言語モデルにおける文化的認識を評価するための自動多言語フレームワークである。
モデル出力における文化的実体を自動的に識別し、構造化された知識にリンクする。
オープンソースのシステムとプロプライエタリシステムの両方を対象とする,世界のさまざまな場所で開発された7つのLLMを評価した。
論文 参考訳(メタデータ) (2025-05-27T19:29:40Z) - JiraiBench: A Bilingual Benchmark for Evaluating Large Language Models' Detection of Human Self-Destructive Behavior Content in Jirai Community [9.492476871323763]
本稿では,大規模言語モデルによる自己破壊的コンテンツ検出の有効性を評価するための,最初のバイリンガルベンチマークである JiraiBench を紹介する。
我々は,薬物過剰摂取,摂食障害,自傷など多種の自己破壊行動を含む,全国的な地雷オンラインサブカルチャーに注目した。
本データセットは,3つの行動カテゴリーに沿って,多次元アノテーションを用いた10,419の中国語投稿と5000の日本語投稿からなる。
論文 参考訳(メタデータ) (2025-03-27T16:48:58Z) - MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [86.7047714187813]
MMLU-ProXは29の言語をカバーするベンチマークであり、英語のベンチマーク上に構築されている。
それぞれの言語バージョンは11,829の同一の質問で構成されており、直接言語間比較を可能にする。
効率的な評価ニーズを満たすため,言語毎の質問数は658件である。
論文 参考訳(メタデータ) (2025-03-13T15:59:20Z) - Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation [71.59208664920452]
多言語データセットの文化的バイアスは、グローバルベンチマークとしての有効性に重大な課題をもたらす。
MMLUの進歩は西洋中心の概念の学習に大きく依存しており、文化に敏感な知識を必要とする質問の28%がそうである。
改良されたMMLUであるGlobal MMLUをリリースし,42言語を対象に評価を行った。
論文 参考訳(メタデータ) (2024-12-04T13:27:09Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。