論文の概要: "Be My Cheese?": Assessing Cultural Nuance in Multilingual LLM Translations
- arxiv url: http://arxiv.org/abs/2509.21577v1
- Date: Thu, 25 Sep 2025 20:55:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.009771
- Title: "Be My Cheese?": Assessing Cultural Nuance in Multilingual LLM Translations
- Title(参考訳): 『Be My Cheese?』:多言語LLM翻訳における文化的ニュアンスの評価
- Authors: Madison Van Doren, Cory Holland,
- Abstract要約: このパイロットスタディでは、比喩的言語を翻訳する際に、最先端の多言語AIモデルのローカライズ能力について検討する。
文化的な適切さと全体的なローカライゼーションの質 - マーケティングやeコマースといった現実世界のアプリケーションにとって重要な要素である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This pilot study explores the localisation capabilities of state-of-the-art multilingual AI models when translating figurative language, such as idioms and puns, from English into a diverse range of global languages. It expands on existing LLM translation research and industry benchmarks, which emphasise grammatical accuracy and token-level correctness, by focusing on cultural appropriateness and overall localisation quality - critical factors for real-world applications like marketing and e-commerce. To investigate these challenges, this project evaluated a sample of 87 LLM-generated translations of e-commerce marketing emails across 24 regional dialects of 20 languages. Human reviewers fluent in each target language provided quantitative ratings and qualitative feedback on faithfulness to the original's tone, meaning, and intended audience. Findings suggest that, while leading models generally produce grammatically correct translations, culturally nuanced language remains a clear area for improvement, often requiring substantial human refinement. Notably, even high-resource global languages, despite topping industry benchmark leaderboards, frequently mistranslated figurative expressions and wordplay. This work challenges the assumption that data volume is the most reliable predictor of machine translation quality and introduces cultural appropriateness as a key determinant of multilingual LLM performance - an area currently underexplored in existing academic and industry benchmarks. As a proof of concept, this pilot highlights limitations of current multilingual AI systems for real-world localisation use cases. Results of this pilot support the opportunity for expanded research at greater scale to deliver generalisable insights and inform deployment of reliable machine translation workflows in culturally diverse contexts.
- Abstract(参考訳): このパイロットスタディでは、イディオムや句といった図形言語を英語から多種多様なグローバル言語に翻訳する際に、最先端の多言語AIモデルのローカライズ能力について検討する。
文化的な適切さと全体的なローカライゼーション品質に焦点を当て、文法的正確さとトークンレベルの正しさを強調した既存のLLM翻訳研究と業界ベンチマークを拡張している。
これらの課題を解明するために,20言語24方言を対象に,87のLLMによるeコマースマーケティングメールの翻訳例を評価した。
対象言語に精通した人間レビュアーは、原曲のトーン、意味、意図された聴衆に対する、定量的な評価と質的なフィードバックを提供した。
先導的なモデルは一般的に文法的に正しい翻訳を生成するが、文化的にニュアンスのある言語は改善のための明確な領域であり、しばしば実質的な人間の洗練を必要としている。
特に、業界ベンチマークのリーダーボードを抜いたにもかかわらず、高リソースのグローバル言語でさえ、しばしば図式表現やワードプレイを誤訳している。
この研究は、データボリュームが機械翻訳品質の最も信頼性の高い予測因子であり、マルチリンガルLLMパフォーマンスの重要な決定要因として文化的な適切性を導入するという仮定に挑戦する。
概念実証として、このパイロットは、実世界のローカライゼーションユースケースに対する、現在の多言語AIシステムの制限を強調している。
このパイロットの結果は、より大規模に研究を拡大し、一般的な洞察を提供し、文化的に多様な文脈における信頼性の高い機械翻訳ワークフローの展開を通知する機会をサポートする。
関連論文リスト
- When Meanings Meet: Investigating the Emergence and Quality of Shared Concept Spaces during Multilingual Language Model Training [57.230355403478995]
本研究では,EuroLLMの事前学習における言語に依存しない概念空間の開発について検討する。
共有概念空間は早期に出現し、洗練され続けていますが、それらとの整合性は言語に依存しています。
従来の作業とは対照的に、細かな手作業分析により、翻訳品質の顕著な向上は、行動の変化を反映していることが判明した。
論文 参考訳(メタデータ) (2026-01-30T11:23:01Z) - LiveCLKTBench: Towards Reliable Evaluation of Cross-Lingual Knowledge Transfer in Multilingual LLMs [67.09110757873142]
言語間知識伝達の分離と計測を目的とした自動生成パイプラインであるLiveCLKTBenchを提案する。
我々のパイプラインは、実世界のドメインから自己完結した、時間に敏感な知識エンティティを識別する。
これらの有効なエンティティのドキュメントは、複数の言語に翻訳される事実的な質問を生成するために使用される。
論文 参考訳(メタデータ) (2025-11-03T17:06:49Z) - Ticket-Bench: A Kickoff for Multilingual and Regionalized Agent Evaluation [4.563830993050022]
タスク指向シナリオにおける多言語エージェント評価のためのベンチマークであるTicket-Benchを紹介する。
Ticket-Benchは、ポルトガル語、英語、スペイン語、ドイツ語、イタリア語、フランス語の6つの主要言語にわたるサッカーチケット購入のドメインをシミュレートしている。
我々は,関数呼び出しの精度と言語間の一貫性を計測し,多種多様な商用およびオープンソース LLM の評価を行った。
論文 参考訳(メタデータ) (2025-09-17T23:13:47Z) - Multilingual Self-Taught Faithfulness Evaluators [11.200203292660758]
合成多言語要約データからのみ学習するフレームワークである。
我々のフレームワークは、最先端の英語評価器や機械翻訳に基づくアプローチなど、既存のベースラインよりも改善されている。
論文 参考訳(メタデータ) (2025-07-28T12:01:59Z) - Disentangling Language and Culture for Evaluating Multilingual Large Language Models [48.06219053598005]
本稿では,LLMの多言語機能を包括的に評価するデュアル評価フレームワークを提案する。
言語媒体と文化的文脈の次元に沿って評価を分解することにより、LLMが言語間を横断的に処理する能力の微妙な分析を可能にする。
論文 参考訳(メタデータ) (2025-05-30T14:25:45Z) - Overcoming Data Scarcity in Generative Language Modelling for Low-Resource Languages: A Systematic Review [0.7366405857677227]
本稿では、低リソース言語(LRL)における生成言語モデリングにおけるデータ不足に対処する戦略に焦点を当てる。
モノリンガルデータ拡張、バックトランスレーション、多言語トレーニング、即興エンジニアリングなど、技術的アプローチを特定し、分類し、評価する。
我々は,これらの手法を広い範囲のLRLに拡張することを推奨し,同値生成言語システムを構築する上でのオープンな課題を概説する。
論文 参考訳(メタデータ) (2025-05-07T16:04:45Z) - MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [86.7047714187813]
MMLU-ProXは29の言語をカバーするベンチマークであり、英語のベンチマーク上に構築されている。
それぞれの言語バージョンは11,829の同一の質問で構成されており、直接言語間比較を可能にする。
効率的な評価ニーズを満たすため,言語毎の質問数は658件である。
論文 参考訳(メタデータ) (2025-03-13T15:59:20Z) - Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation [71.59208664920452]
多言語データセットの文化的バイアスは、グローバルベンチマークとしての有効性に重大な課題をもたらす。
MMLUの進歩は西洋中心の概念の学習に大きく依存しており、文化に敏感な知識を必要とする質問の28%がそうである。
改良されたMMLUであるGlobal MMLUをリリースし,42言語を対象に評価を行った。
論文 参考訳(メタデータ) (2024-12-04T13:27:09Z) - Is Translation All You Need? A Study on Solving Multilingual Tasks with Large Language Models [79.46179534911019]
大規模言語モデル (LLM) は多言語機能を示しているが、ほとんどは不均衡なトレーニングコーパスのため英語中心である。
実世界のユーザクエリと非英語中心のLLMに評価を拡張し、多言語性能のより広範な評価を提供する。
論文 参考訳(メタデータ) (2024-03-15T12:47:39Z) - Are Structural Concepts Universal in Transformer Language Models?
Towards Interpretable Cross-Lingual Generalization [27.368684663279463]
本稿では,言語間の概念対応を明確に整合させ,言語間の一般化を促進する可能性について検討する。
言語構文の側面をテストベッドとして,43言語を解析した結果,高い整合性を示した。
本稿では,メタラーニングに基づく概念空間の整合学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-19T14:50:51Z) - Cross-lingual Lifelong Learning [53.06904052325966]
本稿では,言語間連続学習(CCL)の評価パラダイムを提案する。
マルチリンガルなシーケンシャルな学習を特に難しいものにするための洞察を提供する。
この分析の意味は、異なる言語間連続学習のデシダータを測り、バランスをとる方法のレシピを含む。
論文 参考訳(メタデータ) (2022-05-23T09:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。