論文の概要: A Unified Framework to Quantify Cultural Intelligence of AI
- arxiv url: http://arxiv.org/abs/2603.01211v1
- Date: Sun, 01 Mar 2026 18:14:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.568092
- Title: A Unified Framework to Quantify Cultural Intelligence of AI
- Title(参考訳): AIの文化的インテリジェンスを定量化する統一フレームワーク
- Authors: Sunipa Dev, Vinodkumar Prabhakaran, Rutledge Chin Feman, Aida Davani, Remi Denton, Charu Kalia, Piyawat L Kumjorn, Madhurima Maji, Rida Qadri, Negar Rostamzadeh, Renee Shelby, Romina Stella, Hayk Stepanyan, Erin van Liemt, Aishwarya Verma, Oscar Wahltinez, Edem Wornyo, Andrew Zaldivar, Saška Mojsilović,
- Abstract要約: 本稿では,文化能力の多面的指標を文化的知能の統一評価に集約する枠組みを提案する。
文化インテリジェンスを,さまざまな領域にまたがるコア機能のスイートとして概念化し,それを指標として運用する。
- 参考スコア(独自算出の注目度): 16.75352229274232
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As generative AI technologies are increasingly being launched across the globe, assessing their competence to operate in different cultural contexts is exigently becoming a priority. While recent years have seen numerous and much-needed efforts on cultural benchmarking, these efforts have largely focused on specific aspects of culture and evaluation. While these efforts contribute to our understanding of cultural competence, a unified and systematic evaluation approach is needed for us as a field to comprehensively assess diverse cultural dimensions at scale. Drawing on measurement theory, we present a principled framework to aggregate multifaceted indicators of cultural capabilities into a unified assessment of cultural intelligence. We start by developing a working definition of culture that includes identifying core domains of culture. We then introduce a broad-purpose, systematic, and extensible framework for assessing cultural intelligence of AI systems. Drawing on theoretical framing from psychometric measurement validity theory, we decouple the background concept (i.e., cultural intelligence) from its operationalization via measurement. We conceptualize cultural intelligence as a suite of core capabilities spanning diverse domains, which we then operationalize through a set of indicators designed for reliable measurement. Finally, we identify the considerations, challenges, and research pathways to meaningfully measure these indicators, specifically focusing on data collection, probing strategies, and evaluation metrics.
- Abstract(参考訳): 生成的AI技術が世界中でますます普及しつつある中、異なる文化的文脈で運用する能力を評価することが、極端に優先されている。
近年、文化ベンチマークの取り組みが盛んに行われているが、これらの取り組みは主に文化と評価の特定の側面に焦点を当てている。
これらの取り組みが文化的能力の理解に寄与する一方で、大規模に多様な文化的側面を包括的に評価する分野として、統一的かつ体系的な評価アプローチが必要である。
測定理論に基づいて,文化能力の多面的指標を総合的に評価する枠組みを提示する。
まずは、文化のコアドメインを特定することを含む、文化の動作定義の開発から始めます。
次に、AIシステムの文化的インテリジェンスを評価するための、幅広い目的、体系的、拡張可能なフレームワークを紹介します。
心理学的測定妥当性理論からの理論的フレーミングに基づいて、背景概念(文化知能)を測定による運用から切り離す。
文化的インテリジェンスを,さまざまな領域にまたがるコア機能スイートとして概念化し,信頼性測定のために設計された指標セットを通じて運用する。
最後に、これらの指標を有意に測定するための考慮事項、課題、研究経路を特定し、特にデータ収集、探索戦略、評価指標に焦点を当てる。
関連論文リスト
- 'Too much alignment; not enough culture': Re-balancing cultural alignment practices in LLMs [0.0]
本稿では、AIアライメントプラクティスへの質的なアプローチの統合へのシフトを論じる。
クリフォード・ゲールツ(Clifford Geertz)の"thick description"の概念からインスピレーションを得たAIシステムは、より深い文化的意味を反映したアウトプットを生成する必要がある。
論文 参考訳(メタデータ) (2025-09-30T12:22:53Z) - CultureScope: A Dimensional Lens for Probing Cultural Understanding in LLMs [57.653830744706305]
CultureScopeは、大規模な言語モデルにおける文化的理解を評価するための、これまでで最も包括的な評価フレームワークである。
文化的な氷山理論に触発されて、文化知識分類のための新しい次元スキーマを設計する。
実験結果から,文化的理解を効果的に評価できることが示唆された。
論文 参考訳(メタデータ) (2025-09-19T17:47:48Z) - Culture is Everywhere: A Call for Intentionally Cultural Evaluation [36.20861746863831]
文献的文化的評価について論じる: 評価のあらゆる側面に埋め込まれた文化的仮定を体系的に検証するアプローチ。
我々は、現在のベンチマークプラクティスを超えて、意味と今後の方向性について議論する。
論文 参考訳(メタデータ) (2025-09-01T09:39:21Z) - Toward Socially Aware Vision-Language Models: Evaluating Cultural Competence Through Multimodal Story Generation [2.0467354053171243]
本稿では,マルチモーダルストーリー生成による視覚言語モデル(VLM)の文化的能力の総合評価を行う。
分析の結果,文化的に特有な語彙が多岐にわたる文化的適応能力,家族用語,地理的マーカーが明らかとなった。
文化的な能力はアーキテクチャによって劇的に変化し、いくつかのモデルは逆の文化的アライメントを示し、自動化されたメトリクスは人間の評価と矛盾するアーキテクチャ上のバイアスを示しています。
論文 参考訳(メタデータ) (2025-08-22T19:39:02Z) - CAReDiO: Cultural Alignment of LLM via Representativeness and Distinctiveness Guided Data Optimization [50.90288681622152]
大規模言語モデル(LLM)は、より深く様々な地域における人間の生活に統合される。
既存のアプローチは、文化固有のコーパスを微調整することで、文化的に整合したLCMを開発する。
本稿では,新しい文化データ構築フレームワークであるCAReDiOを紹介する。
論文 参考訳(メタデータ) (2025-04-09T13:40:13Z) - CultureVLM: Characterizing and Improving Cultural Understanding of Vision-Language Models for over 100 Countries [63.00147630084146]
視覚言語モデル(VLM)は高度な人間とAIの相互作用を持つが、文化的な理解に苦慮している。
CultureVerseは大規模なマルチモーダルベンチマークで、682の文化的概念、188の国/地域、15の文化的概念、3の質問タイプをカバーしている。
本稿では,文化理解の大幅な向上を実現するために,我々のデータセットを微調整したVLMのシリーズであるCultureVLMを提案する。
論文 参考訳(メタデータ) (2025-01-02T14:42:37Z) - CROPE: Evaluating In-Context Adaptation of Vision and Language Models to Culture-Specific Concepts [45.77570690529597]
文化固有の概念の知識を探索するための視覚的質問応答ベンチマークであるCROPEを紹介する。
いくつかの最先端のオープンビジョンと言語モデルの評価は、文化固有の概念と共通の概念の相違が大きいことを示す。
文脈知識を用いた実験は、モデルがマルチモーダル情報を効果的に活用し、文化固有の概念を描写に結びつけるのに苦労していることを示している。
論文 参考訳(メタデータ) (2024-10-20T17:31:19Z) - Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。
我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。
異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文 参考訳(メタデータ) (2024-06-17T14:03:27Z) - Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。