論文の概要: WorldView-Bench: A Benchmark for Evaluating Global Cultural Perspectives in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.09595v1
- Date: Wed, 14 May 2025 17:43:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.553218
- Title: WorldView-Bench: A Benchmark for Evaluating Global Cultural Perspectives in Large Language Models
- Title(参考訳): WorldView-Bench: 大規模言語モデルにおけるグローバルな文化的視点の評価ベンチマーク
- Authors: Abdullah Mushtaq, Imran Taj, Rafay Naeem, Ibrahim Ghaznavi, Junaid Qadir,
- Abstract要約: 大規模言語モデル(LLM)は、西洋中心の認識論と社会文化的規範を強化する方法で主に訓練され、整列されている。
多様な世界観に対応する能力を分析し,LLMにおけるグローバルカルチャー・インクルーシティ(GCI)を評価するためのベンチマークであるWorldView-Benchを紹介する。
- 参考スコア(独自算出の注目度): 1.094065133109559
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are predominantly trained and aligned in ways that reinforce Western-centric epistemologies and socio-cultural norms, leading to cultural homogenization and limiting their ability to reflect global civilizational plurality. Existing benchmarking frameworks fail to adequately capture this bias, as they rely on rigid, closed-form assessments that overlook the complexity of cultural inclusivity. To address this, we introduce WorldView-Bench, a benchmark designed to evaluate Global Cultural Inclusivity (GCI) in LLMs by analyzing their ability to accommodate diverse worldviews. Our approach is grounded in the Multiplex Worldview proposed by Senturk et al., which distinguishes between Uniplex models, reinforcing cultural homogenization, and Multiplex models, which integrate diverse perspectives. WorldView-Bench measures Cultural Polarization, the exclusion of alternative perspectives, through free-form generative evaluation rather than conventional categorical benchmarks. We implement applied multiplexity through two intervention strategies: (1) Contextually-Implemented Multiplex LLMs, where system prompts embed multiplexity principles, and (2) Multi-Agent System (MAS)-Implemented Multiplex LLMs, where multiple LLM agents representing distinct cultural perspectives collaboratively generate responses. Our results demonstrate a significant increase in Perspectives Distribution Score (PDS) entropy from 13% at baseline to 94% with MAS-Implemented Multiplex LLMs, alongside a shift toward positive sentiment (67.7%) and enhanced cultural balance. These findings highlight the potential of multiplex-aware AI evaluation in mitigating cultural bias in LLMs, paving the way for more inclusive and ethically aligned AI systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、西洋中心の認識論と社会文化の規範を強化し、文化の均質化を招き、グローバルな文明を反映する能力を制限する方法で、主に訓練され、整列されている。
既存のベンチマークフレームワークは、文化的傾向の複雑さを無視する厳密でクローズドな評価に頼っているため、このバイアスを適切に捉えることができない。
そこで本研究では,LLMにおけるグローバル・カルチャー・インクルーシティ(GCI)の評価のためのベンチマークであるWorldView-Benchを紹介する。
この手法は, ユニプレックスモデル, 文化的均質化の強化, 多様な視点を統合したマルチプレックスモデルとを区別する, Senturk et al によって提案されたマルチプレックス・ワールドビューに基礎を置いている。
WorldView-Benchは、従来の分類学的ベンチマークではなく、自由形式の生成的評価を通じて、代替視点の排除である文化分極を測定する。
我々は,(1)多元性原理を組み込むためのコンテキスト実装型多元性 LLM,(2)多元性システム(MAS)実装型多元性 LLM,(2)異なる文化的視点を表す複数のLLMエージェントが協調して応答を生成する多元性 LLM,という2つの介入戦略を通じて,適用多重性を実装した。
以上の結果から, PDSのエントロピーは, 13%から94%に増加し,MAS-Implemented Multiplex LLMsが増加し, 肯定的な感情(67.7%)と文化バランスが向上した。
これらの知見は、LLMにおける文化的偏見を緩和し、より包括的で倫理的に整合したAIシステムへの道を開く上で、多重性を考慮したAI評価の可能性を強調している。
関連論文リスト
- CAReDiO: Cultural Alignment of LLM via Representativeness and Distinctiveness Guided Data Optimization [50.90288681622152]
大規模言語モデル(LLM)は、より深く様々な地域における人間の生活に統合される。
既存のアプローチは、文化固有のコーパスを微調整することで、文化的に整合したLCMを開発する。
本稿では,新しい文化データ構築フレームワークであるCAReDiOを紹介する。
論文 参考訳(メタデータ) (2025-04-09T13:40:13Z) - Cultural Learning-Based Culture Adaptation of Language Models [70.1063219524999]
大きな言語モデル(LLM)をさまざまな文化的価値に適用することは難しい課題です。
文化的学習に基づくLLMと文化的価値との整合性を高めるための新しい枠組みであるCLCAについて述べる。
論文 参考訳(メタデータ) (2025-04-03T18:16:26Z) - Toward Inclusive Educational AI: Auditing Frontier LLMs through a Multiplexity Lens [1.094065133109559]
本稿では,大規模言語モデル(LLM)における文化的バイアスの評価と緩和のための枠組みを提案する。
分析の結果,LLMには文化的偏極が頻繁に見られ,バイアスは過度にも微妙にも現れることがわかった。
システムプロンプトに直接多重化原理を組み込む textitContextual-Implemented Multiplex LLM と、複数の LLM エージェントがそれぞれ異なる文化的視点を表現し、バランスよく合成された応答を協調的に生成する textitMulti-Agent System (MAS)-Implemented Multiplex LLM という2つの戦略を提案する。
論文 参考訳(メタデータ) (2025-01-02T11:27:08Z) - All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages [73.93600813999306]
ALM-benchは、100言語にわたるLMMを評価するための、これまでで最大かつ最も包括的な取り組みである。
様々な言語でテキストと組み合わせた文化的に多様なイメージを理解し、推論する能力をテストすることで、既存のモデルに挑戦する。
このベンチマークは、真/偽、複数選択、オープンな質問など、さまざまな質問フォーマットを備えた、堅牢でニュアンスの高い評価フレームワークを提供する。
論文 参考訳(メタデータ) (2024-11-25T15:44:42Z) - LLM-GLOBE: A Benchmark Evaluating the Cultural Values Embedded in LLM Output [8.435090588116973]
LLMの文化的価値システムを評価するためのLLM-GLOBEベンチマークを提案する。
次に、このベンチマークを利用して、中国とアメリカのLLMの値を比較します。
提案手法は,オープンエンドコンテンツの評価を自動化する新しい"LLMs-as-a-Jury"パイプラインを含む。
論文 参考訳(メタデータ) (2024-11-09T01:38:55Z) - CulturalTeaming: AI-Assisted Interactive Red-Teaming for Challenging LLMs' (Lack of) Multicultural Knowledge [69.82940934994333]
我々は、人間とAIのコラボレーションを活用して、挑戦的な評価データセットを構築するインタラクティブなレッドチームシステムであるCulturalTeamingを紹介する。
我々の研究は、CulturalTeamingの様々なAI支援モードが、文化的な質問の作成においてアノテータを支援することを明らかにした。
CULTURALBENCH-V0.1は、ユーザのリピートの試みにより、コンパクトだが高品質な評価データセットである。
論文 参考訳(メタデータ) (2024-04-10T00:25:09Z) - CDEval: A Benchmark for Measuring the Cultural Dimensions of Large Language Models [41.885600036131045]
CDEvalは、大規模言語モデルの文化的側面を評価するためのベンチマークである。
GPT-4の自動生成と人間による検証の両方を取り入れて構築され、7つの領域にわたる6つの文化的次元をカバーする。
論文 参考訳(メタデータ) (2023-11-28T02:01:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。