論文の概要: CDEval: A Benchmark for Measuring the Cultural Dimensions of Large
Language Models
- arxiv url: http://arxiv.org/abs/2311.16421v2
- Date: Wed, 7 Feb 2024 02:38:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 19:34:37.655322
- Title: CDEval: A Benchmark for Measuring the Cultural Dimensions of Large
Language Models
- Title(参考訳): cdeval: 大きな言語モデルの文化的次元を測定するためのベンチマーク
- Authors: Yuhang Wang, Yanxu Zhu, Chao Kong, Shuyu Wei, Xiaoyuan Yi, Xing Xie
and Jitao Sang
- Abstract要約: CDEvalは、大規模言語モデルの文化的側面を評価するためのベンチマークである。
GPT-4の自動生成と人間による検証の両方を取り入れて構築され、7つの領域にわたる6つの文化的次元をカバーする。
- 参考スコア(独自算出の注目度): 43.98598363461303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the scaling of Large Language Models (LLMs) has dramatically enhanced
their capabilities, there has been a growing focus on the alignment problem to
ensure their responsible and ethical use. While existing alignment efforts
predominantly concentrate on universal values such as the HHH principle, the
aspect of culture, which is inherently pluralistic and diverse, has not
received adequate attention. This work introduces a new benchmark, CDEval,
aimed at evaluating the cultural dimensions of LLMs. CDEval is constructed by
incorporating both GPT-4's automated generation and human verification,
covering six cultural dimensions across seven domains. Our comprehensive
experiments provide intriguing insights into the culture of mainstream LLMs,
highlighting both consistencies and variations across different dimensions and
domains. The findings underscore the importance of integrating cultural
considerations in LLM development, particularly for applications in diverse
cultural settings. Through CDEval, we aim to broaden the horizon of LLM
alignment research by including cultural dimensions, thus providing a more
holistic framework for the future development and evaluation of LLMs. This
benchmark serves as a valuable resource for cultural studies in LLMs, paving
the way for more culturally aware and sensitive models.
- Abstract(参考訳): 大規模言語モデル(llm)のスケーリングによって能力が劇的に向上するにつれ、その責任と倫理的利用を確保するために、アライメントの問題に注目が集まっている。
既存のアライメント努力は、HHH原則のような普遍的価値に主に集中しているが、本質的に多元的かつ多様である文化の側面には十分な注意が払われていない。
この研究は、LLMの文化的側面を評価することを目的とした新しいベンチマークであるCDEvalを導入する。
CDEvalは、GPT-4の自動生成と人間の検証の両方を取り入れて構築され、7つの領域にわたる6つの文化的次元をカバーする。
我々の包括的な実験は、主流のllmの文化に興味深い洞察を与え、異なる次元とドメインにおける構成とバリエーションを強調する。
この知見は, LLM開発における文化的考慮事項の統合の重要性, 特に多様な文化的状況における応用の重要性を浮き彫りにした。
CDEvalを通じて、文化的な側面を含むことでLCMアライメント研究の地平を広げ、LCMの将来の発展と評価のためのより包括的な枠組みを提供する。
このベンチマークは、LLMにおける文化的研究の貴重なリソースとなり、より文化的に認識され、センシティブなモデルへの道を開いた。
関連論文リスト
- Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.09670425244462]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。
本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LCMの能力と限界について検討する。
論文 参考訳(メタデータ) (2024-05-07T20:28:34Z) - NORMAD: A Benchmark for Measuring the Cultural Adaptability of Large Language Models [26.64843536942309]
大規模言語モデルがアウトプットを多様な文化的規範に適応できるかどうかは不明である。
我々は75カ国の社会的・文化的規範を表す2.6kストーリーを含む新しいデータセットであるNormAdを紹介した。
我々の研究は、LLMがあらゆる文脈の粒度にわたる文化的推論に苦慮していることを明らかにした。
論文 参考訳(メタデータ) (2024-04-18T18:48:50Z) - CULTURE-GEN: Revealing Global Cultural Perception in Language Models through Natural Language Prompting [68.37589899302161]
110か国・地域での3つのSOTAモデルの文化認識を,文化条件付き世代を通して8つの文化関連トピックについて明らかにした。
文化条件付き世代は、デフォルトの文化と区別される余分な文化を区別する言語的な「マーカー」から成り立っていることが判明した。
論文 参考訳(メタデータ) (2024-04-16T00:50:43Z) - CulturalTeaming: AI-Assisted Interactive Red-Teaming for Challenging LLMs' (Lack of) Multicultural Knowledge [69.82940934994333]
我々は、人間とAIのコラボレーションを活用して、挑戦的な評価データセットを構築するインタラクティブなレッドチームシステムであるCulturalTeamingを紹介する。
我々の研究は、CulturalTeamingの様々なAI支援モードが、文化的な質問の作成においてアノテータを支援することを明らかにした。
CULTURALBENCH-V0.1は、ユーザのリピートの試みにより、コンパクトだが高品質な評価データセットである。
論文 参考訳(メタデータ) (2024-04-10T00:25:09Z) - Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z) - CultureLLM: Incorporating Cultural Differences into Large Language
Models [39.33251733412784]
CultureLLMは、大きな言語モデルに文化的差異を組み込むためのコスト効率の良いソリューションである。
我々の人間による研究は、生成されたサンプルが元のサンプルと意味的に等価であることを示している。
論文 参考訳(メタデータ) (2024-02-09T04:02:43Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z) - Cultural Alignment in Large Language Models: An Explanatory Analysis Based on Hofstede's Cultural Dimensions [10.415002561977655]
本研究は,ホフステデの文化次元の枠組みを用いて文化的アライメントを定量化する文化アライメントテスト (Hoftede's CAT) を提案する。
我々は、米国、中国、アラブ諸国といった地域の文化的側面に対して、大規模言語モデル(LLM)を定量的に評価する。
その結果, LLMの文化的アライメントを定量化し, 説明的文化的次元におけるLCMの差異を明らかにすることができた。
論文 参考訳(メタデータ) (2023-08-25T14:50:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。