論文の概要: Towards Cross-lingual Values Assessment: A Consensus-Pluralism Perspective
- arxiv url: http://arxiv.org/abs/2602.17283v1
- Date: Thu, 19 Feb 2026 11:41:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.002122
- Title: Towards Cross-lingual Values Assessment: A Consensus-Pluralism Perspective
- Title(参考訳): 言語間価値評価に向けて:合意・複数主義の視点から
- Authors: Yukun Chen, Xinyu Zhang, Jialong Tang, Yu Wan, Baosong Yang, Yiming Li, Zhan Qin, Kui Ren,
- Abstract要約: X-Valueは、グローバルな視点からコンテンツの深い価値を評価するために設計された、新しい言語間価値評価ベンチマークである。
X-Valueは18言語にまたがる5000以上のQAペアで構成され、シュワルツのベーシックヒューマンバリュー理論に基づく7つのコアドメインに体系的に組織化されている。
- 参考スコア(独自算出の注目度): 47.001227248208856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) have become pivotal to content safety, current evaluation paradigms primarily focus on detecting explicit harms (e.g., violence or hate speech), neglecting the subtler value dimensions conveyed in digital content. To bridge this gap, we introduce X-Value, a novel Cross-lingual Values Assessment Benchmark designed to evaluate LLMs' ability to assess deep-level values of content from a global perspective. X-Value consists of more than 5,000 QA pairs across 18 languages, systematically organized into 7 core domains grounded in Schwartz's Theory of Basic Human Values and categorized into easy and hard levels for discriminative evaluation. We further propose a unique two-stage annotation framework that first identifies whether an issue falls under global consensus (e.g., human rights) or pluralism (e.g., religion), and subsequently conducts a multi-party evaluation of the latent values embedded within the content. Systematic evaluations on X-Value reveal that current SOTA LLMs exhibit deficiencies in cross-lingual values assessment ($Acc < 77\%$), with significant performance disparities across different languages ($ΔAcc > 20\%$). This work highlights the urgent need to improve the nuanced, values-aware content assessment capability of LLMs. Our X-Value is available at: https://huggingface.co/datasets/Whitolf/X-Value.
- Abstract(参考訳): 大規模言語モデル(LLM)はコンテンツ安全性にとって重要な要素となっているが、現在の評価パラダイムは主に明示的な害(暴力、ヘイトスピーチなど)の検出に重点を置いており、デジタルコンテンツに伝達される微妙な価値次元を無視している。
このギャップを埋めるため,グローバルな視点からコンテンツ深層評価を行うLLMの能力を評価するために設計された,新たな言語間価値評価ベンチマークであるX-Valueを導入する。
X-Valueは18言語にまたがる5000以上のQAペアで構成されており、シュワルツのベーシック・ヒューマン・バリューの理論に基づいて体系的に7つのコア・ドメインに分類され、識別的評価の容易かつ難しいレベルに分類される。
さらに、この問題がグローバルコンセンサス(人権など)や多元主義(宗教など)に該当するかを最初に識別し、その後、コンテンツに埋め込まれた潜伏値の複数政党による評価を行う、ユニークな2段階アノテーションフレームワークを提案する。
X-Valueの体系的評価では、現在のSOTA LLMは言語間価値評価に欠陥(Acc < 77\%$)を示しており、異なる言語(ΔAcc > 20\%$)で大きな性能格差がある。
この研究は、LLMのニュアンス付き、価値を意識したコンテンツアセスメント能力を改善するための緊急の必要性を強調している。
私たちのX-Valueは、https://huggingface.co/datasets/Whitolf/X-Valueで利用可能です。
関連論文リスト
- Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。
既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。
その結果,2つの領域間に大きな性能差が認められた。
論文 参考訳(メタデータ) (2025-05-22T12:27:02Z) - Value Portrait: Assessing Language Models' Values through Psychometrically and Ecologically Valid Items [2.9357382494347264]
既存のベンチマークは、価値関連のバイアスに弱い人や機械のアノテーションに依存している。
本稿では,実生活におけるユーザ-LLMインタラクションをキャプチャするアイテムからなるValue Portraitベンチマークを提案する。
この心理的に検証されたアプローチは、特定の値と強く相関したアイテムがそれらの値を評価するための信頼できるアイテムとして機能することを保証する。
論文 参考訳(メタデータ) (2025-05-02T05:26:50Z) - Value Compass Benchmarks: A Platform for Fundamental and Validated Evaluation of LLMs Values [76.70893269183684]
大きな言語モデル(LLM)は驚くべきブレークスルーを達成する。
価値を人間に合わせることは 責任ある開発に欠かせないものになっています
3つの望ましい目標を達成するLLMの評価はいまだに欠けている。
論文 参考訳(メタデータ) (2025-01-13T05:53:56Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - CLAVE: An Adaptive Framework for Evaluating Values of LLM Generated Responses [34.77031649891843]
CLAVEは2つの補完的なLarge Language Model(LLM)を統合する新しいフレームワークである。
このデュアルモデルアプローチは、値タイプ当たり100個の人ラベルサンプルを使用して、任意の値システムでキャリブレーションを可能にする。
ValEvalは13k+(text,value,label)12+を多種多様なドメインで構成し、3つの主要なバリューシステムをカバーする包括的データセットである。
論文 参考訳(メタデータ) (2024-07-15T13:51:37Z) - Value FULCRA: Mapping Large Language Models to the Multidimensional
Spectrum of Basic Human Values [47.779186412943076]
本稿では,新しい基本値アライメントパラダイムと,基本値次元にまたがる値空間を提案する。
人文科学における人文科学と社会科学の基本的価値観に触発され、この研究は、新しい基本的価値アライメントパラダイムと、基本的価値次元にまたがる価値空間を提案する。
今後の研究を促進するために、代表的シュワルツの基本値理論を例として応用し、5k(LLM出力、値ベクトル)ペアからなるデータセットであるFULCRAを構築する。
論文 参考訳(メタデータ) (2023-11-15T10:29:28Z) - CValues: Measuring the Values of Chinese Large Language Models from
Safety to Responsibility [62.74405775089802]
LLMのアライメント能力を測定するために,中国初の人的価値評価ベンチマークであるCValuesを提案する。
その結果、我々は10のシナリオにまたがる敵の安全プロンプトを手作業で収集し、8つのドメインから責任プロンプトを誘導した。
以上の結果から,ほとんどの中国のLLMは安全面では良好に機能するが,責任面では十分な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2023-07-19T01:22:40Z) - Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。
本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文 参考訳(メタデータ) (2023-05-26T02:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。