論文の概要: CURE: Cultural Understanding and Reasoning Evaluation - A Framework for "Thick" Culture Alignment Evaluation in LLMs
- arxiv url: http://arxiv.org/abs/2511.12014v1
- Date: Sat, 15 Nov 2025 03:39:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.506755
- Title: CURE: Cultural Understanding and Reasoning Evaluation - A Framework for "Thick" Culture Alignment Evaluation in LLMs
- Title(参考訳): CURE: 文化理解と推論評価 - LLMにおける「弱」文化アライメント評価の枠組み-
- Authors: Truong Vo, Sanmi Koyejo,
- Abstract要約: 大規模言語モデル(LLM)は、文化的に多様な環境にますます展開されている。
既存の方法は、非文脈的正当性や強制選択判断に重点を置いている。
現実的な状況下でモデルを提示するベンチマークのセットを紹介する。
- 参考スコア(独自算出の注目度): 24.598338950728234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed in culturally diverse environments, yet existing evaluations of cultural competence remain limited. Existing methods focus on de-contextualized correctness or forced-choice judgments, overlooking the need for cultural understanding and reasoning required for appropriate responses. To address this gap, we introduce a set of benchmarks that, instead of directly probing abstract norms or isolated statements, present models with realistic situational contexts that require culturally grounded reasoning. In addition to the standard Exact Match metric, we introduce four complementary metrics (Coverage, Specificity, Connotation, and Coherence) to capture different dimensions of model's response quality. Empirical analysis across frontier models reveals that thin evaluation systematically overestimates cultural competence and produces unstable assessments with high variance. In contrast, thick evaluation exposes differences in reasoning depth, reduces variance, and provides more stable, interpretable signals of cultural understanding.
- Abstract(参考訳): 大規模言語モデル(LLM)は、文化的に多様な環境に徐々に展開されているが、既存の文化的能力の評価は限られている。
既存の手法は、適切な対応に必要な文化的理解と推論の必要性を見越して、非文脈的正当性や強制選択判断に重点を置いている。
このギャップに対処するために、抽象的な規範や孤立したステートメントを直接探索する代わりに、文化的根拠に基づく推論を必要とする現実的な状況文脈を持つモデルを提示する一連のベンチマークを導入する。
標準のExact Matchメトリックに加えて、モデルの応答品質の異なる次元を捉えるために、4つの補完的メトリクス(Coverage, Specificity, Connotation, Coherence)を導入します。
フロンティアモデルにおける実証分析により、薄い評価は文化的能力を体系的に過大評価し、高いばらつきを伴う不安定な評価を生み出すことが明らかになった。
対照的に、厚い評価は推論深度の違いを露呈し、分散を減少させ、文化的理解のより安定した解釈可能な信号を提供する。
関連論文リスト
- Hire Your Anthropologist! Rethinking Culture Benchmarks Through an Anthropological Lens [9.000522371422628]
ベンチマークのフレームカルチャーを分類する4つのフレームワークを紹介します。
20の文化指標を質的に検討し,6つの方法論的問題を同定した。
我々の目標は、静的リコールタスクを超える文化ベンチマークの開発をガイドすることです。
論文 参考訳(メタデータ) (2025-10-07T13:42:44Z) - CultureScope: A Dimensional Lens for Probing Cultural Understanding in LLMs [57.653830744706305]
CultureScopeは、大規模な言語モデルにおける文化的理解を評価するための、これまでで最も包括的な評価フレームワークである。
文化的な氷山理論に触発されて、文化知識分類のための新しい次元スキーマを設計する。
実験結果から,文化的理解を効果的に評価できることが示唆された。
論文 参考訳(メタデータ) (2025-09-19T17:47:48Z) - Culture is Everywhere: A Call for Intentionally Cultural Evaluation [36.20861746863831]
文献的文化的評価について論じる: 評価のあらゆる側面に埋め込まれた文化的仮定を体系的に検証するアプローチ。
我々は、現在のベンチマークプラクティスを超えて、意味と今後の方向性について議論する。
論文 参考訳(メタデータ) (2025-09-01T09:39:21Z) - From Word to World: Evaluate and Mitigate Culture Bias in LLMs via Word Association Test [50.51344198689069]
我々は,人中心語関連テスト(WAT)を拡張し,異文化間認知による大規模言語モデルのアライメントを評価する。
文化選好に対処するために,モデルの内部表現空間に直接,文化固有の意味的関連性を直接埋め込む革新的なアプローチであるCultureSteerを提案する。
論文 参考訳(メタデータ) (2025-05-24T07:05:10Z) - Randomness, Not Representation: The Unreliability of Evaluating Cultural Alignment in LLMs [7.802103248428407]
我々は,現在の調査に基づく評価手法の背景にある3つの仮定を特定し,検証する。
提示形式間の不安定性,評価された文化次元と保持された文化的次元間の不整合性,即時操舵時の不整合性などについて検討した。
論文 参考訳(メタデータ) (2025-03-11T17:59:53Z) - CROPE: Evaluating In-Context Adaptation of Vision and Language Models to Culture-Specific Concepts [45.77570690529597]
文化固有の概念の知識を探索するための視覚的質問応答ベンチマークであるCROPEを紹介する。
いくつかの最先端のオープンビジョンと言語モデルの評価は、文化固有の概念と共通の概念の相違が大きいことを示す。
文脈知識を用いた実験は、モデルがマルチモーダル情報を効果的に活用し、文化固有の概念を描写に結びつけるのに苦労していることを示している。
論文 参考訳(メタデータ) (2024-10-20T17:31:19Z) - Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。
我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。
異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文 参考訳(メタデータ) (2024-06-17T14:03:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。