論文の概要: WorldValuesBench: A Large-Scale Benchmark Dataset for Multi-Cultural Value Awareness of Language Models
- arxiv url: http://arxiv.org/abs/2404.16308v1
- Date: Thu, 25 Apr 2024 03:23:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 14:58:12.951061
- Title: WorldValuesBench: A Large-Scale Benchmark Dataset for Multi-Cultural Value Awareness of Language Models
- Title(参考訳): WorldValuesBench: 言語モデルのマルチカルチャー価値認識のための大規模ベンチマークデータセット
- Authors: Wenlong Zhao, Debanjan Mondal, Niket Tandon, Danica Dillion, Kurt Gray, Yuling Gu,
- Abstract要約: We present WorldValuesBench, a global diverse, large-scale benchmark dataset for the multi- cultural value prediction task。
私たちのデータセットは、世界中の94,728人の参加者から何百という価値に関する質問に対する回答を集めた、影響力のある社会科学プロジェクトであるWorld Values Survey (WVS)から得られたものです。
このタスクは、強力なオープンソースモデルとクローズドソースモデルにとって難しい課題であることを示す。
- 参考スコア(独自算出の注目度): 7.290310850338281
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The awareness of multi-cultural human values is critical to the ability of language models (LMs) to generate safe and personalized responses. However, this awareness of LMs has been insufficiently studied, since the computer science community lacks access to the large-scale real-world data about multi-cultural values. In this paper, we present WorldValuesBench, a globally diverse, large-scale benchmark dataset for the multi-cultural value prediction task, which requires a model to generate a rating response to a value question based on demographic contexts. Our dataset is derived from an influential social science project, World Values Survey (WVS), that has collected answers to hundreds of value questions (e.g., social, economic, ethical) from 94,728 participants worldwide. We have constructed more than 20 million examples of the type "(demographic attributes, value question) $\rightarrow$ answer" from the WVS responses. We perform a case study using our dataset and show that the task is challenging for strong open and closed-source models. On merely $11.1\%$, $25.0\%$, $72.2\%$, and $75.0\%$ of the questions, Alpaca-7B, Vicuna-7B-v1.5, Mixtral-8x7B-Instruct-v0.1, and GPT-3.5 Turbo can respectively achieve $<0.2$ Wasserstein 1-distance from the human normalized answer distributions. WorldValuesBench opens up new research avenues in studying limitations and opportunities in multi-cultural value awareness of LMs.
- Abstract(参考訳): 多文化的人的価値の認識は、安全でパーソナライズされた応答を生成する言語モデル(LM)の能力にとって重要である。
しかし,計算機科学界では多文化的価値に関する大規模な実世界のデータにアクセスできないため,このLMに対する意識は十分に研究されていない。
本稿では,世界規模で多文化的な価値予測タスクのための大規模ベンチマークデータセットWorldValuesBenchを提案する。
我々のデータセットは、世界中の94,728人の参加者から数百の価値質問(例えば、社会的、経済的、倫理的)に対する回答を集めた、影響力のある社会科学プロジェクト、World Values Survey(WVS)に由来する。
我々は、WVSレスポンスからタイプ"(デコグラフィー属性、値質問) $\rightarrow$ answer"の2000万以上の例を構築しました。
我々は、データセットを用いてケーススタディを行い、そのタスクが強力なオープンソースモデルとクローズドソースモデルに挑戦していることを示す。
単に111.1\%$, $25.0\%$, 7,2.2\%$, 7,5.0\%$の質問に対して、Alpaca-7B, Vicuna-7B-v1.5, Mixtral-8x7B-Instruct-v0.1, GPT-3.5 Turboは正規化された回答分布からそれぞれ$<0.2$Wasserstein 1-distanceを得られる。
WorldValuesBenchは、LMの多文化的価値意識の限界と機会を研究する新しい研究の道を開く。
関連論文リスト
- The PRISM Alignment Project: What Participatory, Representative and Individualised Human Feedback Reveals About the Subjective and Multicultural Alignment of Large Language Models [67.38144169029617]
PRISMは,75か国から1500人の多様な参加者を対象に,社会デマトグラフィーをマッピングし,嗜好を提示する新しいデータセットである。
PRISMは、(i)ヒトのフィードバックデータにおける地理的および人口統計学的関与、(ii)集団福祉(UKとUS)を理解するための2つの国勢調査表現サンプル、(iii)全ての評価が詳細な参加者プロファイルに関連付けられている個別化されたフィードバックに寄与する。
論文 参考訳(メタデータ) (2024-04-24T17:51:36Z) - Scalable Learning of Item Response Theory Models [53.43355949923962]
項目応答理論(IRT)モデルは、分類データから、$m$テスト項目の遅延困難特性とともに、$n$試験の潜時能力を評価することを目的としている。
我々はこれらのモデルの類似性をロジスティック回帰に利用し、コアセットと呼ばれる小さな重み付き部分集合を用いて正確に近似することができる。
論文 参考訳(メタデータ) (2024-03-01T17:12:53Z) - Value FULCRA: Mapping Large Language Models to the Multidimensional
Spectrum of Basic Human Values [47.779186412943076]
本稿では,新しい基本値アライメントパラダイムと,基本値次元にまたがる値空間を提案する。
人文科学における人文科学と社会科学の基本的価値観に触発され、この研究は、新しい基本的価値アライメントパラダイムと、基本的価値次元にまたがる価値空間を提案する。
今後の研究を促進するために、代表的シュワルツの基本値理論を例として応用し、5k(LLM出力、値ベクトル)ペアからなるデータセットであるFULCRAを構築する。
論文 参考訳(メタデータ) (2023-11-15T10:29:28Z) - Value Kaleidoscope: Engaging AI with Pluralistic Human Values, Rights, and Duties [68.66719970507273]
価値多元性とは、複数の正しい値が互いに緊張して保持されるという考え方である。
統計的学習者として、AIシステムはデフォルトで平均に適合する。
ValuePrismは、218kの値、権利、義務の大規模なデータセットで、31kの人間が記述した状況に関連付けられています。
論文 参考訳(メタデータ) (2023-09-02T01:24:59Z) - Towards Measuring the Representation of Subjective Global Opinions in Language Models [26.999751306332165]
大規模言語モデル(LLM)は、社会問題に関する多様なグローバルな視点を公平に表すものではない。
本研究では,どの意見がモデル生成応答に類似しているかを定量的に評価する枠組みを開発する。
他者が使用して構築するためのデータセットをリリースしています。
論文 参考訳(メタデータ) (2023-06-28T17:31:53Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - The Ghost in the Machine has an American accent: value conflict in GPT-3 [0.0]
言語と文化的価値の共創が大きな言語モデルに与える影響について論じる。
我々は、いくつかの言語や国を表す様々な価値豊富なテキストでGPT-3をテストした。
入力テキストに埋め込まれた値が生成された出力に変異されているのを観察した。
論文 参考訳(メタデータ) (2022-03-15T11:06:54Z) - ValueNet: A New Dataset for Human Value Driven Dialogue System [103.2044265617704]
本稿では,21,374のテキストシナリオに対する人間の態度を含む,ValueNetという大規模人的価値データセットを提案する。
総合的な経験的結果は、学習された価値モデルが幅広い対話作業に有用であることを示している。
ValueNetは、人間の価値モデリングのための最初の大規模テキストデータセットである。
論文 参考訳(メタデータ) (2021-12-12T23:02:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。