論文の概要: Towards Cross-lingual Values Assessment: A Consensus-Pluralism Perspective
- arxiv url: http://arxiv.org/abs/2602.17283v1
- Date: Thu, 19 Feb 2026 11:41:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.002122
- Title: Towards Cross-lingual Values Assessment: A Consensus-Pluralism Perspective
- Title(参考訳): 言語間価値評価に向けて:合意・複数主義の視点から
- Authors: Yukun Chen, Xinyu Zhang, Jialong Tang, Yu Wan, Baosong Yang, Yiming Li, Zhan Qin, Kui Ren,
- Abstract要約: X-Valueは、グローバルな視点からコンテンツの深い価値を評価するために設計された、新しい言語間価値評価ベンチマークである。
X-Valueは18言語にまたがる5000以上のQAペアで構成され、シュワルツのベーシックヒューマンバリュー理論に基づく7つのコアドメインに体系的に組織化されている。
- 参考スコア(独自算出の注目度): 47.001227248208856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) have become pivotal to content safety, current evaluation paradigms primarily focus on detecting explicit harms (e.g., violence or hate speech), neglecting the subtler value dimensions conveyed in digital content. To bridge this gap, we introduce X-Value, a novel Cross-lingual Values Assessment Benchmark designed to evaluate LLMs' ability to assess deep-level values of content from a global perspective. X-Value consists of more than 5,000 QA pairs across 18 languages, systematically organized into 7 core domains grounded in Schwartz's Theory of Basic Human Values and categorized into easy and hard levels for discriminative evaluation. We further propose a unique two-stage annotation framework that first identifies whether an issue falls under global consensus (e.g., human rights) or pluralism (e.g., religion), and subsequently conducts a multi-party evaluation of the latent values embedded within the content. Systematic evaluations on X-Value reveal that current SOTA LLMs exhibit deficiencies in cross-lingual values assessment ($Acc < 77\%$), with significant performance disparities across different languages ($ΔAcc > 20\%$). This work highlights the urgent need to improve the nuanced, values-aware content assessment capability of LLMs. Our X-Value is available at: https://huggingface.co/datasets/Whitolf/X-Value.
- Abstract(参考訳): 大規模言語モデル(LLM)はコンテンツ安全性にとって重要な要素となっているが、現在の評価パラダイムは主に明示的な害(暴力、ヘイトスピーチなど)の検出に重点を置いており、デジタルコンテンツに伝達される微妙な価値次元を無視している。
このギャップを埋めるため,グローバルな視点からコンテンツ深層評価を行うLLMの能力を評価するために設計された,新たな言語間価値評価ベンチマークであるX-Valueを導入する。
X-Valueは18言語にまたがる5000以上のQAペアで構成されており、シュワルツのベーシック・ヒューマン・バリューの理論に基づいて体系的に7つのコア・ドメインに分類され、識別的評価の容易かつ難しいレベルに分類される。
さらに、この問題がグローバルコンセンサス(人権など)や多元主義(宗教など)に該当するかを最初に識別し、その後、コンテンツに埋め込まれた潜伏値の複数政党による評価を行う、ユニークな2段階アノテーションフレームワークを提案する。
X-Valueの体系的評価では、現在のSOTA LLMは言語間価値評価に欠陥(Acc < 77\%$)を示しており、異なる言語(ΔAcc > 20\%$)で大きな性能格差がある。
この研究は、LLMのニュアンス付き、価値を意識したコンテンツアセスメント能力を改善するための緊急の必要性を強調している。
私たちのX-Valueは、https://huggingface.co/datasets/Whitolf/X-Valueで利用可能です。
関連論文リスト
- Value Compass Benchmarks: A Platform for Fundamental and Validated Evaluation of LLMs Values [76.70893269183684]
大きな言語モデル(LLM)は驚くべきブレークスルーを達成する。
価値を人間に合わせることは 責任ある開発に欠かせないものになっています
3つの望ましい目標を達成するLLMの評価はいまだに欠けている。
論文 参考訳(メタデータ) (2025-01-13T05:53:56Z) - CLAVE: An Adaptive Framework for Evaluating Values of LLM Generated Responses [34.77031649891843]
CLAVEは2つの補完的なLarge Language Model(LLM)を統合する新しいフレームワークである。
このデュアルモデルアプローチは、値タイプ当たり100個の人ラベルサンプルを使用して、任意の値システムでキャリブレーションを可能にする。
ValEvalは13k+(text,value,label)12+を多種多様なドメインで構成し、3つの主要なバリューシステムをカバーする包括的データセットである。
論文 参考訳(メタデータ) (2024-07-15T13:51:37Z) - Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。
本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文 参考訳(メタデータ) (2023-05-26T02:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。