論文の概要: XCR-Bench: A Multi-Task Benchmark for Evaluating Cultural Reasoning in LLMs
- arxiv url: http://arxiv.org/abs/2601.14063v1
- Date: Tue, 20 Jan 2026 15:21:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.383278
- Title: XCR-Bench: A Multi-Task Benchmark for Evaluating Cultural Reasoning in LLMs
- Title(参考訳): XCR-Bench: LLMにおける文化的推論評価のためのマルチタスクベンチマーク
- Authors: Mohsinul Kabir, Tasnim Ahmed, Md Mezbaur Rahman, Shaoxiong Ji, Hassan Alhuzali, Sophia Ananiadou,
- Abstract要約: 大規模言語モデル(LLM)における異文化間の能力は、CSI(Culture-Specific Items)を識別する能力を必要とする
我々は,Cross(X)-Cultural Reasoning BenchmarkであるXCR-Benchを紹介した。
以上の結果から,現状のLCMは社会的エチケットや文化的参照に関連するCSIを識別・適応する上で,一貫した弱点を示すことが明らかとなった。
- 参考スコア(独自算出の注目度): 20.548049824884668
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Cross-cultural competence in large language models (LLMs) requires the ability to identify Culture-Specific Items (CSIs) and to adapt them appropriately across cultural contexts. Progress in evaluating this capability has been constrained by the scarcity of high-quality CSI-annotated corpora with parallel cross-cultural sentence pairs. To address this limitation, we introduce XCR-Bench, a Cross(X)-Cultural Reasoning Benchmark consisting of 4.9k parallel sentences and 1,098 unique CSIs, spanning three distinct reasoning tasks with corresponding evaluation metrics. Our corpus integrates Newmark's CSI framework with Hall's Triad of Culture, enabling systematic analysis of cultural reasoning beyond surface-level artifacts and into semi-visible and invisible cultural elements such as social norms, beliefs, and values. Our findings show that state-of-the-art LLMs exhibit consistent weaknesses in identifying and adapting CSIs related to social etiquette and cultural reference. Additionally, we find evidence that LLMs encode regional and ethno-religious biases even within a single linguistic setting during cultural adaptation. We release our corpus and code to facilitate future research on cross-cultural NLP.
- Abstract(参考訳): 大規模言語モデル(LLM)における異文化間の能力は、CSI(Culture-Specific Items)を識別し、文化的な文脈に適切に適応する能力を必要とする。
この能力の評価の進歩は、並列な異文化の文対を持つ高品質なCSI注釈コーパスの不足によって制約されている。
この制限に対処するために、XCR-Bench(Cross(X)-Cultural Reasoning Benchmark)を紹介する。
我々のコーパスは、ニューマークのCSIフレームワークとホールのトリアード・オブ・カルチャーを統合し、表面レベルのアーティファクトを超えて文化的推論を体系的に分析し、社会的規範、信念、価値観のような半可視的で目に見えない文化的要素にすることができる。
以上の結果から,現状のLCMは社会的エチケットや文化的参照に関連するCSIを識別・適応する上で,一貫した弱点を示すことが明らかとなった。
さらに,LLMが文化適応中の単一言語環境においても,地域的・民族的偏見を包含する証拠が発見された。
我々は,多文化NLPの今後の研究を促進するために,コーパスとコードをリリースする。
関連論文リスト
- Do Large Language Models Truly Understand Cross-cultural Differences? [53.481048019144644]
我々は,大規模言語モデルの異文化間理解と推論を評価するシナリオベースのベンチマークを開発した。
文化理論を基礎として、異文化の能力を9次元に分類する。
データセットは連続的な拡張をサポートし、実験は他の言語への転送可能性を確認する。
論文 参考訳(メタデータ) (2025-12-08T01:21:58Z) - Culturally-Aware Conversations: A Framework & Benchmark for LLMs [8.314136556868563]
LLMの文化的適応を測定する既存のベンチマークは、さまざまな文化的背景を持つユーザと対話する際に、これらのモデルが直面する実際の課題と不一致である。
社会文化的理論を基礎として,我々の枠組みは,状況的,関係的,文化的文脈によって言語様式がどう形成されるかを定式化した。
我々は,この枠組みに基づいて,文化的に多彩なラッカーによって注釈付けされたベンチマークデータセットを構築し,NLPにおける異文化間評価のための新しいデシラタセットを提案する。
論文 参考訳(メタデータ) (2025-10-13T16:06:14Z) - 'Too much alignment; not enough culture': Re-balancing cultural alignment practices in LLMs [0.0]
本稿では、AIアライメントプラクティスへの質的なアプローチの統合へのシフトを論じる。
クリフォード・ゲールツ(Clifford Geertz)の"thick description"の概念からインスピレーションを得たAIシステムは、より深い文化的意味を反映したアウトプットを生成する必要がある。
論文 参考訳(メタデータ) (2025-09-30T12:22:53Z) - CultureScope: A Dimensional Lens for Probing Cultural Understanding in LLMs [57.653830744706305]
CultureScopeは、大規模な言語モデルにおける文化的理解を評価するための、これまでで最も包括的な評価フレームワークである。
文化的な氷山理論に触発されて、文化知識分類のための新しい次元スキーマを設計する。
実験結果から,文化的理解を効果的に評価できることが示唆された。
論文 参考訳(メタデータ) (2025-09-19T17:47:48Z) - From Word to World: Evaluate and Mitigate Culture Bias in LLMs via Word Association Test [50.51344198689069]
我々は,人中心語関連テスト(WAT)を拡張し,異文化間認知による大規模言語モデルのアライメントを評価する。
文化選好に対処するために,モデルの内部表現空間に直接,文化固有の意味的関連性を直接埋め込む革新的なアプローチであるCultureSteerを提案する。
論文 参考訳(メタデータ) (2025-05-24T07:05:10Z) - Cultural Learning-Based Culture Adaptation of Language Models [70.1063219524999]
大きな言語モデル(LLM)をさまざまな文化的価値に適用することは難しい課題です。
文化的学習に基づくLLMと文化的価値との整合性を高めるための新しい枠組みであるCLCAについて述べる。
論文 参考訳(メタデータ) (2025-04-03T18:16:26Z) - Culture is Not Trivia: Sociocultural Theory for Cultural NLP [10.76392030245232]
これらの方法論的限界は理論的ギャップのシンプトマティックなものであると論じる。
我々は、このギャップを埋めるために、社会文化的言語学から発達した文化の理論を描いている。
論文 参考訳(メタデータ) (2025-02-17T17:25:11Z) - Benchmarking Machine Translation with Cultural Awareness [50.183458829028226]
文化関連コンテンツの翻訳は、効果的な異文化間コミュニケーションに不可欠である。
多くの文化特化項目(CSI)は言語間の翻訳を欠いていることが多い。
この難しさは機械翻訳システムの文化的意識の分析を妨げる。
論文 参考訳(メタデータ) (2023-05-23T17:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。