論文の概要: Hire Your Anthropologist! Rethinking Culture Benchmarks Through an Anthropological Lens
- arxiv url: http://arxiv.org/abs/2510.05931v1
- Date: Tue, 07 Oct 2025 13:42:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.27347
- Title: Hire Your Anthropologist! Rethinking Culture Benchmarks Through an Anthropological Lens
- Title(参考訳): 人類学者を雇う! 人類学のレンズを通して文化ベンチマークを再考する
- Authors: Mai AlKhamissi, Yunze Xiao, Badr AlKhamissi, Mona Diab,
- Abstract要約: ベンチマークのフレームカルチャーを分類する4つのフレームワークを紹介します。
20の文化指標を質的に検討し,6つの方法論的問題を同定した。
我々の目標は、静的リコールタスクを超える文化ベンチマークの開発をガイドすることです。
- 参考スコア(独自算出の注目度): 9.000522371422628
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cultural evaluation of large language models has become increasingly important, yet current benchmarks often reduce culture to static facts or homogeneous values. This view conflicts with anthropological accounts that emphasize culture as dynamic, historically situated, and enacted in practice. To analyze this gap, we introduce a four-part framework that categorizes how benchmarks frame culture, such as knowledge, preference, performance, or bias. Using this lens, we qualitatively examine 20 cultural benchmarks and identify six recurring methodological issues, including treating countries as cultures, overlooking within-culture diversity, and relying on oversimplified survey formats. Drawing on established anthropological methods, we propose concrete improvements: incorporating real-world narratives and scenarios, involving cultural communities in design and validation, and evaluating models in context rather than isolation. Our aim is to guide the development of cultural benchmarks that go beyond static recall tasks and more accurately capture the responses of the models to complex cultural situations.
- Abstract(参考訳): 大規模言語モデルの文化的評価はますます重要になっているが、現在のベンチマークでは、カルチャーを静的な事実や均質な値に還元することが多い。
この見解は、文化を動的、歴史的に位置し、実践的に制定されたものとして強調する人類学的記述と矛盾する。
このギャップを分析するために、私たちは、知識、嗜好、パフォーマンス、偏見といったベンチマークの文化を分類する4つのフレームワークを紹介します。
このレンズを用いて、20の文化基準を質的に検討し、国を文化として扱うこと、内文化の多様性を見越すこと、過度に単純化された調査形式に頼ることを含む6つの方法論上の課題を同定した。
確立された人類学的手法に基づいて、現実の物語とシナリオを取り入れ、デザインと検証に文化的なコミュニティを巻き込み、孤立ではなく文脈でモデルを評価する、具体的な改善を提案する。
我々の目標は、静的なリコールタスクを超えて、複雑な文化的状況に対するモデルの反応をより正確に把握する文化ベンチマークの開発をガイドすることである。
関連論文リスト
- CultureScope: A Dimensional Lens for Probing Cultural Understanding in LLMs [57.653830744706305]
CultureScopeは、大規模な言語モデルにおける文化的理解を評価するための、これまでで最も包括的な評価フレームワークである。
文化的な氷山理論に触発されて、文化知識分類のための新しい次元スキーマを設計する。
実験結果から,文化的理解を効果的に評価できることが示唆された。
論文 参考訳(メタデータ) (2025-09-19T17:47:48Z) - Culture is Everywhere: A Call for Intentionally Cultural Evaluation [36.20861746863831]
文献的文化的評価について論じる: 評価のあらゆる側面に埋め込まれた文化的仮定を体系的に検証するアプローチ。
我々は、現在のベンチマークプラクティスを超えて、意味と今後の方向性について議論する。
論文 参考訳(メタデータ) (2025-09-01T09:39:21Z) - CultureVLM: Characterizing and Improving Cultural Understanding of Vision-Language Models for over 100 Countries [63.00147630084146]
視覚言語モデル(VLM)は高度な人間とAIの相互作用を持つが、文化的な理解に苦慮している。
CultureVerseは大規模なマルチモーダルベンチマークで、682の文化的概念、188の国/地域、15の文化的概念、3の質問タイプをカバーしている。
本稿では,文化理解の大幅な向上を実現するために,我々のデータセットを微調整したVLMのシリーズであるCultureVLMを提案する。
論文 参考訳(メタデータ) (2025-01-02T14:42:37Z) - Risks of Cultural Erasure in Large Language Models [4.613949381428196]
我々は,歴史的権力不平等を疑問視し,考慮する言語技術の量化可能な評価の必要性を論じる。
我々は、言語モデルがこれらの文脈を記述するよう依頼されたとき、世界中の様々な場所で生成する表現を探索する。
言語モデルアプリケーションを用いて,旅行レコメンデーションに表される文化を分析した。
論文 参考訳(メタデータ) (2025-01-02T04:57:50Z) - From Local Concepts to Universals: Evaluating the Multicultural Understanding of Vision-Language Models [10.121734731147376]
視覚言語モデルの性能は、西欧文化のイメージに最適以下である。
様々なベンチマークが、モデルの文化的傾向をテストするために提案されているが、それらは限られた範囲の文化をカバーしている。
我々はGlobalRGベンチマークを導入し、普遍性を越えた検索と文化的な視覚的接地という2つの課題からなる。
論文 参考訳(メタデータ) (2024-06-28T23:28:28Z) - Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。
我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。
異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文 参考訳(メタデータ) (2024-06-17T14:03:27Z) - CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。
人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。
我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文 参考訳(メタデータ) (2024-05-24T01:49:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。