論文の概要: CDEval: A Benchmark for Measuring the Cultural Dimensions of Large
Language Models
- arxiv url: http://arxiv.org/abs/2311.16421v2
- Date: Wed, 7 Feb 2024 02:38:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 19:34:37.655322
- Title: CDEval: A Benchmark for Measuring the Cultural Dimensions of Large
Language Models
- Title(参考訳): cdeval: 大きな言語モデルの文化的次元を測定するためのベンチマーク
- Authors: Yuhang Wang, Yanxu Zhu, Chao Kong, Shuyu Wei, Xiaoyuan Yi, Xing Xie
and Jitao Sang
- Abstract要約: CDEvalは、大規模言語モデルの文化的側面を評価するためのベンチマークである。
GPT-4の自動生成と人間による検証の両方を取り入れて構築され、7つの領域にわたる6つの文化的次元をカバーする。
- 参考スコア(独自算出の注目度): 43.98598363461303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the scaling of Large Language Models (LLMs) has dramatically enhanced
their capabilities, there has been a growing focus on the alignment problem to
ensure their responsible and ethical use. While existing alignment efforts
predominantly concentrate on universal values such as the HHH principle, the
aspect of culture, which is inherently pluralistic and diverse, has not
received adequate attention. This work introduces a new benchmark, CDEval,
aimed at evaluating the cultural dimensions of LLMs. CDEval is constructed by
incorporating both GPT-4's automated generation and human verification,
covering six cultural dimensions across seven domains. Our comprehensive
experiments provide intriguing insights into the culture of mainstream LLMs,
highlighting both consistencies and variations across different dimensions and
domains. The findings underscore the importance of integrating cultural
considerations in LLM development, particularly for applications in diverse
cultural settings. Through CDEval, we aim to broaden the horizon of LLM
alignment research by including cultural dimensions, thus providing a more
holistic framework for the future development and evaluation of LLMs. This
benchmark serves as a valuable resource for cultural studies in LLMs, paving
the way for more culturally aware and sensitive models.
- Abstract(参考訳): 大規模言語モデル(llm)のスケーリングによって能力が劇的に向上するにつれ、その責任と倫理的利用を確保するために、アライメントの問題に注目が集まっている。
既存のアライメント努力は、HHH原則のような普遍的価値に主に集中しているが、本質的に多元的かつ多様である文化の側面には十分な注意が払われていない。
この研究は、LLMの文化的側面を評価することを目的とした新しいベンチマークであるCDEvalを導入する。
CDEvalは、GPT-4の自動生成と人間の検証の両方を取り入れて構築され、7つの領域にわたる6つの文化的次元をカバーする。
我々の包括的な実験は、主流のllmの文化に興味深い洞察を与え、異なる次元とドメインにおける構成とバリエーションを強調する。
この知見は, LLM開発における文化的考慮事項の統合の重要性, 特に多様な文化的状況における応用の重要性を浮き彫りにした。
CDEvalを通じて、文化的な側面を含むことでLCMアライメント研究の地平を広げ、LCMの将来の発展と評価のためのより包括的な枠組みを提供する。
このベンチマークは、LLMにおける文化的研究の貴重なリソースとなり、より文化的に認識され、センシティブなモデルへの道を開いた。
関連論文リスト
- Navigating the Cultural Kaleidoscope: A Hitchhiker's Guide to Sensitivity in Large Language Models [4.771099208181585]
LLMはますますグローバルなアプリケーションにデプロイされ、さまざまなバックグラウンドを持つユーザが尊敬され、理解されることが保証される。
文化的な害は、これらのモデルが特定の文化的規範と一致しないときに起こり、文化的な価値観の誤った表現や違反をもたらす。
潜在的な文化的不感を露呈するシナリオを通じて、異なる文化的文脈におけるモデルアウトプットを評価するために作成された文化的調和テストデータセットと、多様なアノテータからのフィードバックに基づいた微調整による文化的感受性の回復を目的とした、文化的に整合した選好データセットである。
論文 参考訳(メタデータ) (2024-10-15T18:13:10Z) - Evaluating Cultural Awareness of LLMs for Yoruba, Malayalam, and English [1.3359598694842185]
マラヤラム(インド・ケララ州)とヨルバ(西アフリカ)の2つの地域言語の文化的側面を理解するための様々なLLMの能力について検討する。
LLMは英語に高い文化的類似性を示すが、マラヤラムとヨルバの6つの指標にまたがる文化的ニュアンスを捉えられなかった。
このことは、チャットベースのLLMのユーザエクスペリエンスの向上や、大規模LLMエージェントベースの市場調査の妥当性向上に大きく影響する。
論文 参考訳(メタデータ) (2024-09-14T02:21:17Z) - Benchmarking Cognitive Domains for LLMs: Insights from Taiwanese Hakka Culture [4.467334566487944]
本研究では,文化的知識の理解と処理において,大規模言語モデル(LLM)の性能を評価するためのベンチマークを提案する。
この研究は、記憶、理解、応用、分析、評価、創造という6つの認知領域にわたるLLMを体系的に評価する多次元フレームワークを開発する。
その結果,すべての認知領域,特に文化知識の正確な検索と応用を必要とするタスクにおいて,RAGの有効性が強調された。
論文 参考訳(メタデータ) (2024-09-03T02:50:04Z) - CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。
人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。
我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文 参考訳(メタデータ) (2024-05-24T01:49:02Z) - Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.09670425244462]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。
本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LCMの能力と限界について検討する。
論文 参考訳(メタデータ) (2024-05-07T20:28:34Z) - CULTURE-GEN: Revealing Global Cultural Perception in Language Models through Natural Language Prompting [73.94059188347582]
110か国・地域での3つのSOTAモデルの文化認識を,文化条件付き世代を通して8つの文化関連トピックについて明らかにした。
文化条件付き世代は、デフォルトの文化と区別される余分な文化を区別する言語的な「マーカー」から成り立っていることが判明した。
論文 参考訳(メタデータ) (2024-04-16T00:50:43Z) - CulturalTeaming: AI-Assisted Interactive Red-Teaming for Challenging LLMs' (Lack of) Multicultural Knowledge [69.82940934994333]
我々は、人間とAIのコラボレーションを活用して、挑戦的な評価データセットを構築するインタラクティブなレッドチームシステムであるCulturalTeamingを紹介する。
我々の研究は、CulturalTeamingの様々なAI支援モードが、文化的な質問の作成においてアノテータを支援することを明らかにした。
CULTURALBENCH-V0.1は、ユーザのリピートの試みにより、コンパクトだが高品質な評価データセットである。
論文 参考訳(メタデータ) (2024-04-10T00:25:09Z) - Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z) - Cultural Alignment in Large Language Models: An Explanatory Analysis Based on Hofstede's Cultural Dimensions [10.415002561977655]
本研究は,ホフステデの文化次元の枠組みを用いて文化的アライメントを定量化する文化アライメントテスト (Hoftede's CAT) を提案する。
我々は、米国、中国、アラブ諸国といった地域の文化的側面に対して、大規模言語モデル(LLM)を定量的に評価する。
その結果, LLMの文化的アライメントを定量化し, 説明的文化的次元におけるLCMの差異を明らかにすることができた。
論文 参考訳(メタデータ) (2023-08-25T14:50:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。