Fugu-MT 論文翻訳(概要): WorldValuesBench: A Large-Scale Benchmark Dataset for Multi-Cultural Value Awareness of Language Models

論文の概要: WorldValuesBench: A Large-Scale Benchmark Dataset for Multi-Cultural Value Awareness of Language Models

arxiv url: http://arxiv.org/abs/2404.16308v1
Date: Thu, 25 Apr 2024 03:23:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-26 14:58:12.951061
Title: WorldValuesBench: A Large-Scale Benchmark Dataset for Multi-Cultural Value Awareness of Language Models
Title（参考訳）: WorldValuesBench: 言語モデルのマルチカルチャー価値認識のための大規模ベンチマークデータセット
Authors: Wenlong Zhao, Debanjan Mondal, Niket Tandon, Danica Dillion, Kurt Gray, Yuling Gu,
Abstract要約: We present WorldValuesBench, a global diverse, large-scale benchmark dataset for the multi- cultural value prediction task。私たちのデータセットは、世界中の94,728人の参加者から何百という価値に関する質問に対する回答を集めた、影響力のある社会科学プロジェクトであるWorld Values Survey (WVS)から得られたものです。このタスクは、強力なオープンソースモデルとクローズドソースモデルにとって難しい課題であることを示す。
参考スコア（独自算出の注目度）: 7.290310850338281
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The awareness of multi-cultural human values is critical to the ability of language models (LMs) to generate safe and personalized responses. However, this awareness of LMs has been insufficiently studied, since the computer science community lacks access to the large-scale real-world data about multi-cultural values. In this paper, we present WorldValuesBench, a globally diverse, large-scale benchmark dataset for the multi-cultural value prediction task, which requires a model to generate a rating response to a value question based on demographic contexts. Our dataset is derived from an influential social science project, World Values Survey (WVS), that has collected answers to hundreds of value questions (e.g., social, economic, ethical) from 94,728 participants worldwide. We have constructed more than 20 million examples of the type "(demographic attributes, value question) $\rightarrow$ answer" from the WVS responses. We perform a case study using our dataset and show that the task is challenging for strong open and closed-source models. On merely $11.1\%$, $25.0\%$, $72.2\%$, and $75.0\%$ of the questions, Alpaca-7B, Vicuna-7B-v1.5, Mixtral-8x7B-Instruct-v0.1, and GPT-3.5 Turbo can respectively achieve $<0.2$ Wasserstein 1-distance from the human normalized answer distributions. WorldValuesBench opens up new research avenues in studying limitations and opportunities in multi-cultural value awareness of LMs.
Abstract（参考訳）: 多文化的人的価値の認識は、安全でパーソナライズされた応答を生成する言語モデル(LM)の能力にとって重要である。しかし,計算機科学界では多文化的価値に関する大規模な実世界のデータにアクセスできないため,このLMに対する意識は十分に研究されていない。本稿では,世界規模で多文化的な価値予測タスクのための大規模ベンチマークデータセットWorldValuesBenchを提案する。我々のデータセットは、世界中の94,728人の参加者から数百の価値質問(例えば、社会的、経済的、倫理的)に対する回答を集めた、影響力のある社会科学プロジェクト、World Values Survey(WVS)に由来する。我々は、WVSレスポンスからタイプ"(デコグラフィー属性、値質問) $\rightarrow$ answer"の2000万以上の例を構築しました。我々は、データセットを用いてケーススタディを行い、そのタスクが強力なオープンソースモデルとクローズドソースモデルに挑戦していることを示す。単に111.1\%$, $25.0\%$, 7,2.2\%$, 7,5.0\%$の質問に対して、Alpaca-7B, Vicuna-7B-v1.5, Mixtral-8x7B-Instruct-v0.1, GPT-3.5 Turboは正規化された回答分布からそれぞれ$<0.2$Wasserstein 1-distanceを得られる。 WorldValuesBenchは、LMの多文化的価値意識の限界と機会を研究する新しい研究の道を開く。

関連論文リスト

Can LLMs Grasp Implicit Cultural Values? Benchmarking LLMs' Metacognitive Cultural Intelligence with CQ-Bench [37.63947763066401]
CQ-Benchは、大きな言語モデルの暗黙の文化的価値を推測する能力を評価するために設計されたベンチマークである。我々は、World Value SurveyとGlobalOpinionsデータセットの値を用いて、マルチ文字の会話ベースのストーリーデータセットを生成する。 o1モデルとDeepseek-R1モデルは、値選択において人間レベルのパフォーマンスに達するが、それでもニュアンスな姿勢検出では不足している。 GPT-4o-miniとo3-miniのスコア0.602と0.598は、オープンエンドの文化的推論の難しさを浮き彫りにした。
論文参考訳（メタデータ） (2025-04-01T18:54:47Z)
Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation [71.59208664920452]
多言語データセットの文化的バイアスは、グローバルベンチマークとしての有効性に重大な課題をもたらす。 MMLUの進歩は西洋中心の概念の学習に大きく依存しており、文化に敏感な知識を必要とする質問の28%がそうである。改良されたMMLUであるGlobal MMLUをリリースし,42言語を対象に評価を行った。
論文参考訳（メタデータ） (2024-12-04T13:27:09Z)
Can Language Models Reason about Individualistic Human Values and Preferences? [44.249817353449146]
個人主義的価値推論の課題について言語モデル(LM)について検討する。最前線のLMでは, 個性値の予測において, 55～65%の精度しか達成できない限界がみられた。提案した値不等式指数(sigma Inequity)によって測定された大域的個人主義的価値の推論におけるLMの部分性も同定する。
論文参考訳（メタデータ） (2024-10-04T19:03:41Z)
CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。 CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。 CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文参考訳（メタデータ） (2024-06-10T01:59:00Z)
ValueBench: Towards Comprehensively Evaluating Value Orientations and Understanding of Large Language Models [14.268555410234804]
大規模言語モデル(LLM)は多様な分野を変革し、人間のプロキシとして影響力を増している。この研究は、LLMにおける価値オリエンテーションと価値理解を評価するための最初の総合的な心理測定ベンチマークであるValueBenchを紹介した。
論文参考訳（メタデータ） (2024-06-06T16:14:16Z)
CIVICS: Building a Dataset for Examining Culturally-Informed Values in Large Language Models [59.22460740026037]
大規模言語モデル(LLM)の社会的・文化的変動を評価するためのデータセット「CIVICS:文化インフォームド・バリュース・インクルーシブ・コーパス・フォー・ソシエティ・インパクト」我々は、LGBTQIの権利、社会福祉、移民、障害権利、代理など、特定の社会的に敏感なトピックに対処する、手作りの多言語プロンプトのデータセットを作成します。
論文参考訳（メタデータ） (2024-05-22T20:19:10Z)
Elements of World Knowledge (EWoK): A Cognition-Inspired Framework for Evaluating Basic World Knowledge in Language Models [51.891804790725686]
要素・オブ・ワールド・ナレッジ(Elements of World Knowledge, EWoK)は、言語モデルによる世界モデリングの基礎となる概念的知識の理解を評価するためのフレームワークである。 EWoK-core-1.0は世界11の知識領域をカバーする4,374項目のデータセットである。すべてのテストされたモデルは人間よりもパフォーマンスが悪く、その結果はドメインによって大きく異なる。
論文参考訳（メタデータ） (2024-05-15T17:19:42Z)
WorldQA: Multimodal World Knowledge in Videos through Long-Chain Reasoning [49.72868038180909]
マルチモーダル世界モデルの境界を押し上げるために設計されたビデオデータセットであるWorldQAを紹介する。質問の定式化に不可欠な5つの世界知識を同定する。我々は、専門家の知識をコヒーレントな推論チェーンに合成するためのエージェントであるWorldRetrieverを紹介する。
論文参考訳（メタデータ） (2024-05-06T08:42:34Z)
Assessment of Multimodal Large Language Models in Alignment with Human Values [43.023052912326314]
提案するCh3Efは,Ch3Ef,Ch3Ef,Ch3Ef,Ch3Ef,Ch3Ef,Ch3Ef。 Ch3Efデータセットには、hhh原則に基づいた12のドメインと46のタスクを含む、1002人の注釈付きデータサンプルが含まれている。
論文参考訳（メタデータ） (2024-03-26T16:10:21Z)
Value FULCRA: Mapping Large Language Models to the Multidimensional Spectrum of Basic Human Values [47.779186412943076]
本稿では,新しい基本値アライメントパラダイムと,基本値次元にまたがる値空間を提案する。人文科学における人文科学と社会科学の基本的価値観に触発され、この研究は、新しい基本的価値アライメントパラダイムと、基本的価値次元にまたがる価値空間を提案する。今後の研究を促進するために、代表的シュワルツの基本値理論を例として応用し、5k(LLM出力、値ベクトル)ペアからなるデータセットであるFULCRAを構築する。
論文参考訳（メタデータ） (2023-11-15T10:29:28Z)
Towards Measuring the Representation of Subjective Global Opinions in Language Models [26.999751306332165]
大規模言語モデル(LLM)は、社会問題に関する多様なグローバルな視点を公平に表すものではない。本研究では,どの意見がモデル生成応答に類似しているかを定量的に評価する枠組みを開発する。他者が使用して構築するためのデータセットをリリースしています。
論文参考訳（メタデータ） (2023-06-28T17:31:53Z)
CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文参考訳（メタデータ） (2023-06-28T14:14:44Z)
ValueNet: A New Dataset for Human Value Driven Dialogue System [103.2044265617704]
本稿では,21,374のテキストシナリオに対する人間の態度を含む,ValueNetという大規模人的価値データセットを提案する。総合的な経験的結果は、学習された価値モデルが幅広い対話作業に有用であることを示している。 ValueNetは、人間の価値モデリングのための最初の大規模テキストデータセットである。
論文参考訳（メタデータ） (2021-12-12T23:02:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。