論文の概要: ExCAM: Explainable Cultural Awareness Metrics
- arxiv url: http://arxiv.org/abs/2605.29897v1
- Date: Thu, 28 May 2026 13:21:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.338787
- Title: ExCAM: Explainable Cultural Awareness Metrics
- Title(参考訳): ExCAM: 説明可能な文化的認識基準
- Authors: Christoph Leiter, Haiyue Song, Hour Kaing, Jin Tei, Hideki Tanaka, Masao Utiyama, Steffen Eger,
- Abstract要約: ExCAMは、インストラクションとアウトプットのペアにおける文化的エラーを特定し、評価し、説明する。
複数のベースラインと比較して、ExCAMはバランスの取れたテストセット上で最大80%の精度でエラー検出率を達成する。
- 参考スコア(独自算出の注目度): 30.64642598421111
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating the cultural awareness of large language models is crucial to ensure the fairness of generated text and the generalizability of applications across the world. Recent benchmarks explore cultural goods like food or values like behavior in stressful situations through the lens of question answering or text generation tasks. However, creating these benchmarks requires time-intensive and costly human annotations. Also, benchmarks that evaluate cultural awareness in free text are scarce and often rely on dated evaluation mechanisms. To address this gap, we introduce ExCAM, an Explainable Cultural Awareness Metric, which is, to our knowledge, the first dedicated evaluation metric that identifies, rates and explains cultural errors in instruction-output pairs. To train and evaluate ExCAM, we introduce ExCAM40k, a dataset comprised of nine existing benchmarks that we reformat and enhance with synthetic errors. Compared to several baselines, including GPT-5, ExCAM achieves the highest error detection rate with up to 80% accuracy on a balanced test set. Therefore, ExCAM opens the pathway towards fine-grained and explainable cultural evaluation of free text.
- Abstract(参考訳): 大規模言語モデルの文化的認識を評価することは、生成したテキストの公平性と世界中のアプリケーションの一般化可能性を保証するために不可欠である。
最近のベンチマークでは、質問応答のレンズやテキスト生成タスクを通じて、ストレスの多い状況における食べ物や行動などの価値観を探索している。
しかし、これらのベンチマークを作成するには、時間集約的でコストのかかる人的アノテーションが必要である。
また、自由テキストにおける文化的認識を評価するベンチマークは少なく、日付付けされた評価機構に依存していることが多い。
このギャップに対処するため,我々はExCAM(Explainable Cultural Awareness Metric)を紹介した。
ExCAMをトレーニングし,評価するために,既存の9つのベンチマークからなるデータセットであるExCAM40kを導入する。
GPT-5を含むいくつかのベースラインと比較して、ExCAMはバランスの取れたテストセット上で最大80%の精度でエラー検出率を達成する。
したがって、ExCAMは、自由テキストの微細で説明可能な文化的評価への道を開く。
関連論文リスト
- JuICE: A Benchmark for Evaluating LLM-Judge in Identifying Cultural Errors [38.543532383605545]
長文の言語応答における文化的・言語的誤りに関する,7,470のスパンレベルアノテーションのデータセットであるJuICEを提示する。
最強のLDMジャッジでさえ、誤ったスパン検出タスクにおいてF1の0.52しか達成していない。
文化的評価は, 文化的意味の深さと位置を考慮に入れた枠組みに向けて, 表面レベルの検出を超えて, 頑健な文化的評価を行なわなければならないことが示唆された。
論文 参考訳(メタデータ) (2026-05-26T12:45:21Z) - CrossCult-KIBench: A Benchmark for Cross-Cultural Knowledge Insertion in MLLMs [13.267566050457974]
異文化間の知識挿入は、他の文化における本来の振る舞いを保ちながら、特定の文化的文脈にモデルを適応させることに焦点を当てる。
ベンチマークには、英語、中国語、アラビア語文化グループにまたがる49の文化的関連視覚シナリオをカバーする、9800のイメージグラウンドケースが含まれている。
MCKI(Memory-Conditioned Knowledge Insertion)は、冷凍MLLM表現を用いて、外部メモリから関連する文化的知識を検索する。
論文 参考訳(メタデータ) (2026-05-07T12:26:11Z) - From Words to Worlds: Benchmarking Cross-Cultural Cultural Understanding in Machine Translation [16.809989616664605]
CulT-Evalは、モデルが異なるタイプの文化的基盤表現をどのように扱うかを評価するために設計されたベンチマークである。
CulT-Evalは、複数の文化的な接地された表現にまたがる、7,959以上の慎重にキュレートされたインスタンスから構成されている。
文化的な意味の逸脱を対象とする相補的評価尺度を提案する。
論文 参考訳(メタデータ) (2026-03-18T02:59:44Z) - CultureScope: A Dimensional Lens for Probing Cultural Understanding in LLMs [57.653830744706305]
CultureScopeは、大規模な言語モデルにおける文化的理解を評価するための、これまでで最も包括的な評価フレームワークである。
文化的な氷山理論に触発されて、文化知識分類のための新しい次元スキーマを設計する。
実験結果から,文化的理解を効果的に評価できることが示唆された。
論文 参考訳(メタデータ) (2025-09-19T17:47:48Z) - CAIRe: Cultural Attribution of Images by Retrieval-Augmented Evaluation [61.130639734982395]
本稿では,画像の文化的関連度を評価する新しい評価指標であるCAIReを紹介する。
本フレームワークは,イメージ内の実体と概念を知識ベースに基盤として,実情報を用いて各文化ラベルに対して独立した評価を行う。
論文 参考訳(メタデータ) (2025-06-10T17:16:23Z) - RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding [79.44246283490665]
本稿では,検索による視覚文化理解の促進を目的とした新しいベンチマークであるRAVENEAを紹介する。
RAVENEAは、文化中心の視覚的質問応答(cVQA)と文化インフォームドイメージキャプション(cIC)の2つのタスクに焦点を当てている。
画像クエリ毎に7つのマルチモーダルレトリバーを訓練・評価し、14の最先端の視覚言語モデルにおける検索強化入力の下流への影響を計測する。
論文 参考訳(メタデータ) (2025-05-20T14:57:16Z) - Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation [71.59208664920452]
多言語データセットの文化的バイアスは、グローバルベンチマークとしての有効性に重大な課題をもたらす。
MMLUの進歩は西洋中心の概念の学習に大きく依存しており、文化に敏感な知識を必要とする質問の28%がそうである。
改良されたMMLUであるGlobal MMLUをリリースし,42言語を対象に評価を行った。
論文 参考訳(メタデータ) (2024-12-04T13:27:09Z) - Benchmarking Machine Translation with Cultural Awareness [50.183458829028226]
文化関連コンテンツの翻訳は、効果的な異文化間コミュニケーションに不可欠である。
多くの文化特化項目(CSI)は言語間の翻訳を欠いていることが多い。
この難しさは機械翻訳システムの文化的意識の分析を妨げる。
論文 参考訳(メタデータ) (2023-05-23T17:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。