論文の概要: From Words to Worlds: Benchmarking Cross-Cultural Cultural Understanding in Machine Translation
- arxiv url: http://arxiv.org/abs/2603.17303v1
- Date: Wed, 18 Mar 2026 02:59:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.485732
- Title: From Words to Worlds: Benchmarking Cross-Cultural Cultural Understanding in Machine Translation
- Title(参考訳): 言葉から世界へ:機械翻訳における異文化理解のベンチマーク
- Authors: Bangju Han, Yingqi Wang, Huang Qing, Tiyuan Li, Fengyi Yang, Ahtamjan Ahmat, Abibulla Atawulla, Yating Yang, Xi Zhou,
- Abstract要約: CulT-Evalは、モデルが異なるタイプの文化的基盤表現をどのように扱うかを評価するために設計されたベンチマークである。
CulT-Evalは、複数の文化的な接地された表現にまたがる、7,959以上の慎重にキュレートされたインスタンスから構成されている。
文化的な意味の逸脱を対象とする相補的評価尺度を提案する。
- 参考スコア(独自算出の注目度): 16.809989616664605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Culture-expressions, such as idioms, slang, and culture-specific items (CSIs), are pervasive in natural language and encode meanings that go beyond literal linguistic form. Accurately translating such expressions remains challenging for machine translation systems. Despite this, existing benchmarks remain fragmented and do not provide a systematic framework for evaluating translation performance on culture-loaded expressions. To address this gap, we introduce CulT-Eval, a benchmark designed to evaluate how models handle different types of culturally grounded expressions. CulT-Eval comprises over 7,959 carefully curated instances spanning multiple types of culturally grounded expressions, with a comprehensive error taxonomy covering culturally grounded expressions. Through extensive evaluation of large language models and detailed analysis, we identify recurring and systematic failure modes that are not adequately captured by existing automatic metrics. Accordingly, we propose a complementary evaluation metric that targets culturally induced meaning deviations overlooked by standard MT metrics. The results indicate that current models struggle to preserve culturally grounded meaning and to capture the cultural and contextual nuances essential for accurate translation. Our benchmark and code are available at https://anonymous.4open.science/r/CulT-Eval-E75D/.
- Abstract(参考訳): 慣用句、スラング、文化特化項目(CSI)などの文化表現は、自然言語に広く浸透し、文字通りの言語形式を超えた意味をエンコードする。
このような表現の正確な翻訳は、機械翻訳システムでは依然として困難である。
それにもかかわらず、既存のベンチマークは断片化され続けており、カルチャーローディングされた表現の翻訳性能を評価するための体系的なフレームワークを提供していない。
このギャップに対処するために、我々はCulT-Evalという、異なるタイプの文化的基盤表現をモデルがどのように扱うかを評価するために設計されたベンチマークを紹介した。
CulT-Evalは、複数の文化的根拠のある表現にまたがる7,959件の精査された事例と、文化的根拠のある表現をカバーする包括的な誤り分類を含んでいる。
大規模言語モデルの広範囲な評価と詳細な分析により,既存の自動メトリクスによって適切に捉えられていない繰り返しおよび系統的な障害モードを同定する。
そこで本稿では,標準MT測定値で見過ごされる文化的な意味の逸脱を対象とする補完的評価指標を提案する。
その結果、現在のモデルは、文化的に根ざした意味を保存し、正確な翻訳に必要な文化的・文脈的なニュアンスを捉えるのに苦労していることが示唆された。
ベンチマークとコードはhttps://anonymous.4open.science/r/CulT-Eval-E75D/で公開されている。
関連論文リスト
- Tears or Cheers? Benchmarking LLMs via Culturally Elicited Distinct Affective Responses [28.3173238194554]
CEDARは、文化的にアンダーラインのscElicited underlinetextscDistinct underlinetextscAffective underlinetextscResponsesをキャプチャするシナリオから構築されたベンチマークである。
その結果得られたベンチマークは、7つの言語に10,962のインスタンスと14のきめ細かい感情カテゴリで構成され、各言語には400のマルチモーダルと1,166のテキストのみのサンプルが含まれている。
論文 参考訳(メタデータ) (2026-01-19T13:04:26Z) - CURE: Cultural Understanding and Reasoning Evaluation - A Framework for "Thick" Culture Alignment Evaluation in LLMs [24.598338950728234]
大規模言語モデル(LLM)は、文化的に多様な環境にますます展開されている。
既存の方法は、非文脈的正当性や強制選択判断に重点を置いている。
現実的な状況下でモデルを提示するベンチマークのセットを紹介する。
論文 参考訳(メタデータ) (2025-11-15T03:39:13Z) - CultureScope: A Dimensional Lens for Probing Cultural Understanding in LLMs [57.653830744706305]
CultureScopeは、大規模な言語モデルにおける文化的理解を評価するための、これまでで最も包括的な評価フレームワークである。
文化的な氷山理論に触発されて、文化知識分類のための新しい次元スキーマを設計する。
実験結果から,文化的理解を効果的に評価できることが示唆された。
論文 参考訳(メタデータ) (2025-09-19T17:47:48Z) - CaMMT: Benchmarking Culturally Aware Multimodal Machine Translation [47.54347964192231]
本稿では,5800枚以上の画像のベンチマークであるCaMMTと,英語と地域語でのパラレルキャプションを紹介する。
自動的および人的評価により、視覚的コンテキストは一般的に翻訳品質を改善する。
論文 参考訳(メタデータ) (2025-05-30T10:42:44Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z) - On the Cultural Gap in Text-to-Image Generation [75.69755281031951]
テキスト・トゥ・イメージ(T2I)生成における課題のひとつは、トレーニングデータに存在する文化ギャップの意図しない反映である。
クロスカルチャー画像を生成するT2Iモデルの能力を体系的に評価するベンチマークは存在しない。
本稿では,モデルが対象文化にどの程度適しているかを評価するため,包括的評価基準付きChallenging Cross-Cultural (C3)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-06T13:17:55Z) - Benchmarking Machine Translation with Cultural Awareness [50.183458829028226]
文化関連コンテンツの翻訳は、効果的な異文化間コミュニケーションに不可欠である。
多くの文化特化項目(CSI)は言語間の翻訳を欠いていることが多い。
この難しさは機械翻訳システムの文化的意識の分析を妨げる。
論文 参考訳(メタデータ) (2023-05-23T17:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。