論文の概要: Towards A Cultural Intelligence and Values Inferences Quality Benchmark for Community Values and Common Knowledge
- arxiv url: http://arxiv.org/abs/2512.05176v1
- Date: Thu, 04 Dec 2025 17:15:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.774682
- Title: Towards A Cultural Intelligence and Values Inferences Quality Benchmark for Community Values and Common Knowledge
- Title(参考訳): 文化的インテリジェンスと価値推論 : コミュニティ価値と共通知識の品質ベンチマーク
- Authors: Brittany Johnson, Erin Reddick, Angela D. R. Smith,
- Abstract要約: 大規模言語モデル(LLM)は強力な技術として登場し、ソフトウェアエンジニアリングチームに広く採用され、使用されています。
多くの場合、LLMは一般人口を表す「汎用」技術として設計されている。
これはしばしば、主に西コーカサスの物語と、他の文化や人口との不一致を意味している。
- 参考スコア(独自算出の注目度): 12.977626651989004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have emerged as a powerful technology, and thus, we have seen widespread adoption and use on software engineering teams. Most often, LLMs are designed as "general purpose" technologies meant to represent the general population. Unfortunately, this often means alignment with predominantly Western Caucasian narratives and misalignment with other cultures and populations that engage in collaborative innovation. In response to this misalignment, there have been recent efforts centered on the development of "culturally-informed" LLMs, such as ChatBlackGPT, that are capable of better aligning with historically marginalized experiences and perspectives. Despite this progress, there has been little effort aimed at supporting our ability to develop and evaluate culturally-informed LLMs. A recent effort proposed an approach for developing a national alignment benchmark that emphasizes alignment with national social values and common knowledge. However, given the range of cultural identities present in the United States (U.S.), a national alignment benchmark is an ineffective goal for broader representation. To help fill this gap in this US context, we propose a replication study that translates the process used to develop KorNAT, a Korean National LLM alignment benchmark, to develop CIVIQ, a Cultural Intelligence and Values Inference Quality benchmark centered on alignment with community social values and common knowledge. Our work provides a critical foundation for research and development aimed at cultural alignment of AI technologies in practice.
- Abstract(参考訳): 大規模言語モデル(LLM)は強力な技術として登場し、ソフトウェアエンジニアリングチームに広く採用され、使用されています。
多くの場合、LLMは一般人口を表す「汎用」技術として設計されている。
残念なことに、これは主に西洋のコーカサス人の物語と、他の文化や、協力的なイノベーションに関わる人々との混同を意味することが多い。
この不一致に対応するため、ChatBlackGPTのような歴史的に疎外された経験や視点との整合性を向上する「文化的インフォームド」なLLMの開発に焦点を絞った最近の取り組みがある。
この進歩にもかかわらず、文化的にインフォームドされたLCMの開発と評価を支援する努力はほとんど行われていない。
近年の取り組みでは、国家の社会的価値と共通知識との整合性を強調する全国的アライメント・ベンチマークを開発するためのアプローチが提案されている。
しかし、アメリカ合衆国(アメリカ合衆国)に存在する文化的アイデンティティの範囲を考えると、全国的なアライメント・ベンチマークは、より広範な表現のための非効率な目標である。
米国におけるこのギャップを埋めるために,韓国のLLMアライメントベンチマークであるKorNATの開発プロセスと,コミュニティの社会的価値と共通知識との整合性に着目したCIVIQの開発を行う複製研究を提案する。
我々の研究は、実践中のAI技術の文化的整合性を目的とした研究と開発のための重要な基盤を提供する。
関連論文リスト
- 'Too much alignment; not enough culture': Re-balancing cultural alignment practices in LLMs [0.0]
本稿では、AIアライメントプラクティスへの質的なアプローチの統合へのシフトを論じる。
クリフォード・ゲールツ(Clifford Geertz)の"thick description"の概念からインスピレーションを得たAIシステムは、より深い文化的意味を反映したアウトプットを生成する必要がある。
論文 参考訳(メタデータ) (2025-09-30T12:22:53Z) - CultureScope: A Dimensional Lens for Probing Cultural Understanding in LLMs [57.653830744706305]
CultureScopeは、大規模な言語モデルにおける文化的理解を評価するための、これまでで最も包括的な評価フレームワークである。
文化的な氷山理論に触発されて、文化知識分類のための新しい次元スキーマを設計する。
実験結果から,文化的理解を効果的に評価できることが示唆された。
論文 参考訳(メタデータ) (2025-09-19T17:47:48Z) - From Word to World: Evaluate and Mitigate Culture Bias in LLMs via Word Association Test [50.51344198689069]
我々は,人中心語関連テスト(WAT)を拡張し,異文化間認知による大規模言語モデルのアライメントを評価する。
文化選好に対処するために,モデルの内部表現空間に直接,文化固有の意味的関連性を直接埋め込む革新的なアプローチであるCultureSteerを提案する。
論文 参考訳(メタデータ) (2025-05-24T07:05:10Z) - Cultural Learning-Based Culture Adaptation of Language Models [70.1063219524999]
大きな言語モデル(LLM)をさまざまな文化的価値に適用することは難しい課題です。
文化的学習に基づくLLMと文化的価値との整合性を高めるための新しい枠組みであるCLCAについて述べる。
論文 参考訳(メタデータ) (2025-04-03T18:16:26Z) - CultureVLM: Characterizing and Improving Cultural Understanding of Vision-Language Models for over 100 Countries [63.00147630084146]
視覚言語モデル(VLM)は高度な人間とAIの相互作用を持つが、文化的な理解に苦慮している。
CultureVerseは大規模なマルチモーダルベンチマークで、682の文化的概念、188の国/地域、15の文化的概念、3の質問タイプをカバーしている。
本稿では,文化理解の大幅な向上を実現するために,我々のデータセットを微調整したVLMのシリーズであるCultureVLMを提案する。
論文 参考訳(メタデータ) (2025-01-02T14:42:37Z) - LLM-GLOBE: A Benchmark Evaluating the Cultural Values Embedded in LLM Output [8.435090588116973]
LLMの文化的価値システムを評価するためのLLM-GLOBEベンチマークを提案する。
次に、このベンチマークを利用して、中国とアメリカのLLMの値を比較します。
提案手法は,オープンエンドコンテンツの評価を自動化する新しい"LLMs-as-a-Jury"パイプラインを含む。
論文 参考訳(メタデータ) (2024-11-09T01:38:55Z) - CulturalTeaming: AI-Assisted Interactive Red-Teaming for Challenging LLMs' (Lack of) Multicultural Knowledge [69.82940934994333]
我々は、人間とAIのコラボレーションを活用して、挑戦的な評価データセットを構築するインタラクティブなレッドチームシステムであるCulturalTeamingを紹介する。
我々の研究は、CulturalTeamingの様々なAI支援モードが、文化的な質問の作成においてアノテータを支援することを明らかにした。
CULTURALBENCH-V0.1は、ユーザのリピートの試みにより、コンパクトだが高品質な評価データセットである。
論文 参考訳(メタデータ) (2024-04-10T00:25:09Z) - CDEval: A Benchmark for Measuring the Cultural Dimensions of Large Language Models [41.885600036131045]
CDEvalは、大規模言語モデルの文化的側面を評価するためのベンチマークである。
GPT-4の自動生成と人間による検証の両方を取り入れて構築され、7つの領域にわたる6つの文化的次元をカバーする。
論文 参考訳(メタデータ) (2023-11-28T02:01:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。