論文の概要: MVPBench: A Benchmark and Fine-Tuning Framework for Aligning Large Language Models with Diverse Human Values
- arxiv url: http://arxiv.org/abs/2509.08022v1
- Date: Tue, 09 Sep 2025 09:25:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.206461
- Title: MVPBench: A Benchmark and Fine-Tuning Framework for Aligning Large Language Models with Diverse Human Values
- Title(参考訳): MVPBench: さまざまな人的価値を持つ大規模言語モデルのベンチマークと微調整フレームワーク
- Authors: Yao Liang, Dongcheng Zhao, Feifei Zhao, Guobin Shen, Yuwei Wang, Dongqi Liang, Yi Zeng,
- Abstract要約: MVPBenchは,75か国にわたる大規模言語モデルの人的価値との整合性を評価する新しいベンチマークである。
MVPBenchを用いて、いくつかの最先端LCMの詳細な分析を行い、地理的および人口統計学的ライン間でのアライメント性能の相違を明らかにした。
本研究は, 文化的適応性, 価値観に敏感なLDMを構築する上で, 人口適応型アライメント評価の必要性を明らかにするものである。
- 参考スコア(独自算出の注目度): 23.048484118383616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The alignment of large language models (LLMs) with human values is critical for their safe and effective deployment across diverse user populations. However, existing benchmarks often neglect cultural and demographic diversity, leading to limited understanding of how value alignment generalizes globally. In this work, we introduce MVPBench, a novel benchmark that systematically evaluates LLMs' alignment with multi-dimensional human value preferences across 75 countries. MVPBench contains 24,020 high-quality instances annotated with fine-grained value labels, personalized questions, and rich demographic metadata, making it the most comprehensive resource of its kind to date. Using MVPBench, we conduct an in-depth analysis of several state-of-the-art LLMs, revealing substantial disparities in alignment performance across geographic and demographic lines. We further demonstrate that lightweight fine-tuning methods, such as Low-Rank Adaptation (LoRA) and Direct Preference Optimization (DPO), can significantly enhance value alignment in both in-domain and out-of-domain settings. Our findings underscore the necessity for population-aware alignment evaluation and provide actionable insights for building culturally adaptive and value-sensitive LLMs. MVPBench serves as a practical foundation for future research on global alignment, personalized value modeling, and equitable AI development.
- Abstract(参考訳): 大規模言語モデル(LLM)と人的価値の整合性は、多様なユーザ集団にまたがる安全かつ効果的なデプロイメントにおいて重要である。
しかし、既存のベンチマークは、しばしば文化的、人口統計学的多様性を無視し、価値のアライメントが世界規模でどのように一般化するかを限定的に理解する。
本稿では,75ヶ国にわたる多次元人的価値嗜好とLLMの整合性を体系的に評価する新しいベンチマークであるMVPBenchを紹介する。
MVPBenchには、細かな値ラベル、パーソナライズされた質問、リッチな人口統計メタデータを付加した24,020の高品質なインスタンスが含まれている。
MVPBenchを用いて、いくつかの最先端LCMの詳細な分析を行い、地理的および人口統計学的ライン間でのアライメント性能の相違を明らかにした。
さらに,ローランク適応 (LoRA) や直接選好最適化 (DPO) のような軽量な微調整手法は,ドメイン内設定と外部設定の両方において,価値アライメントを大幅に向上させることができることを示した。
本研究は, 文化的適応性, 価値観に敏感なLDMを構築する上で, 人口適応型アライメント評価の必要性を明らかにするものである。
MVPBenchは、グローバルアライメント、パーソナライズされた価値モデリング、公平なAI開発に関する将来の研究のための実践的な基盤となっている。
関連論文リスト
- OmniAlign-V: Towards Enhanced Alignment of MLLMs with Human Preference [80.36831779302148]
オープンソースのマルチモーダル大規模言語モデル(MLLM)の最近の進歩は,基礎的能力の向上に重点を置いている。
OmniAlign-Vは,多彩な画像,複雑な質問,さまざまな応答形式を含む200Kの高品質なトレーニングサンプルのデータセットである。
実験の結果,OmniAlign-Vを用いたMLLMの微調整は,SFT(Supervised Fine-Tuning)やDPO(Direct Preference Optimization)を用いることで,人間の嗜好のアライメントを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-02-25T18:05:14Z) - MEMERAG: A Multilingual End-to-End Meta-Evaluation Benchmark for Retrieval Augmented Generation [13.440594349043916]
マルチリンガル・エンド・エンド・エンド・メタ評価RAGベンチマーク(MEMERAG)を開発した。
我々のベンチマークは,MIRACLデータセット上に構築されており,母国語質問を用いて多種多様な大言語モデル(LLM)による応答を生成する。
提案するベンチマークでは,高度なプロンプト技術とLCMによる改善を確実に識別できることが示されている。
論文 参考訳(メタデータ) (2025-02-24T13:58:42Z) - LocalValueBench: A Collaboratively Built and Extensible Benchmark for Evaluating Localized Value Alignment and Ethical Safety in Large Language Models [0.0]
大規模言語モデル(LLM)の普及は、その局所的価値や倫理的基準との整合性をしっかりと評価する必要がある。
textscLocalValueBenchは、LLMがオーストラリアの値に準拠していることを評価するために設計されたベンチマークである。
論文 参考訳(メタデータ) (2024-07-27T05:55:42Z) - PERSONA: A Reproducible Testbed for Pluralistic Alignment [46.750587209286344]
言語モデルの多元的アライメントの評価と改善を目的としたテストベッドであるPERSONAを紹介する。
我々は,米国国勢調査データから多様なユーザプロファイルを手続き的に生成し,その結果,1,586人の合成ペルソナが得られた。
次に,3,868のプロンプトと317,200のフィードバックペアを含む大規模評価データセットを生成する。
論文 参考訳(メタデータ) (2024-07-24T16:11:39Z) - CLAVE: An Adaptive Framework for Evaluating Values of LLM Generated Responses [34.77031649891843]
CLAVEは2つの補完的なLarge Language Model(LLM)を統合する新しいフレームワークである。
このデュアルモデルアプローチは、値タイプ当たり100個の人ラベルサンプルを使用して、任意の値システムでキャリブレーションを可能にする。
ValEvalは13k+(text,value,label)12+を多種多様なドメインで構成し、3つの主要なバリューシステムをカバーする包括的データセットである。
論文 参考訳(メタデータ) (2024-07-15T13:51:37Z) - AlignBench: Benchmarking Chinese Alignment of Large Language Models [99.24597941555277]
中国語大言語モデルのアライメントを評価するための総合ベンチマークであるAlignBenchを紹介する。
我々は,8つの主要なカテゴリ,683の実シナリオ根付きクエリ,およびそれに対応する人間の検証基準を含む,ループ内データキュレーションパイプラインを設計する。
自動評価には,Chain-of-Thoughtを用いた多次元LCM-as-Judgecitezheng2023アジュジング手法を用いて説明と最終評価を生成する。
論文 参考訳(メタデータ) (2023-11-30T17:41:30Z) - Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。
本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文 参考訳(メタデータ) (2023-05-26T02:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。