論文の概要: Value Compass Leaderboard: A Platform for Fundamental and Validated Evaluation of LLMs Values
- arxiv url: http://arxiv.org/abs/2501.07071v1
- Date: Mon, 13 Jan 2025 05:53:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:25:29.528824
- Title: Value Compass Leaderboard: A Platform for Fundamental and Validated Evaluation of LLMs Values
- Title(参考訳): Value Compass Leaderboard: LLMの基本的な評価と検証のためのプラットフォーム
- Authors: Jing Yao, Xiaoyuan Yi, Shitong Duan, Jindong Wang, Yuzhuo Bai, Muhua Huang, Peng Zhang, Tun Lu, Zhicheng Dou, Maosong Sun, Xing Xie,
- Abstract要約: 大きな言語モデル(LLM)は目覚ましいブレークスルーを達成し、その価値を人間と一致させることが必須になっている。
既存の評価は、バイアスや毒性といった安全性のリスクに焦点を絞っている。
既存のベンチマークはデータ汚染の傾向があります。
個人や文化にまたがる人的価値の多元的性質は、LLM値アライメントの測定において無視される。
- 参考スコア(独自算出の注目度): 76.70893269183684
- License:
- Abstract: As Large Language Models (LLMs) achieve remarkable breakthroughs, aligning their values with humans has become imperative for their responsible development and customized applications. However, there still lack evaluations of LLMs values that fulfill three desirable goals. (1) Value Clarification: We expect to clarify the underlying values of LLMs precisely and comprehensively, while current evaluations focus narrowly on safety risks such as bias and toxicity. (2) Evaluation Validity: Existing static, open-source benchmarks are prone to data contamination and quickly become obsolete as LLMs evolve. Additionally, these discriminative evaluations uncover LLMs' knowledge about values, rather than valid assessments of LLMs' behavioral conformity to values. (3) Value Pluralism: The pluralistic nature of human values across individuals and cultures is largely ignored in measuring LLMs value alignment. To address these challenges, we presents the Value Compass Leaderboard, with three correspondingly designed modules. It (i) grounds the evaluation on motivationally distinct \textit{basic values to clarify LLMs' underlying values from a holistic view; (ii) applies a \textit{generative evolving evaluation framework with adaptive test items for evolving LLMs and direct value recognition from behaviors in realistic scenarios; (iii) propose a metric that quantifies LLMs alignment with a specific value as a weighted sum over multiple dimensions, with weights determined by pluralistic values.
- Abstract(参考訳): 大きな言語モデル(LLM)が目覚ましいブレークスルーを達成するにつれて、その価値と人間との整合性は、彼らの責任ある開発とカスタマイズされたアプリケーションに欠かせないものになっています。
しかし、3つの望ましい目標を達成するLLMの評価はいまだに欠けている。
1) 価値の明確化: LLMの根本的価値を的確かつ包括的に明らかにするとともに, バイアスや毒性などの安全性リスクを狭義に評価することが期待されている。
2) 評価妥当性: 既存の静的なオープンソースベンチマークはデータの汚染を招きやすいため,LSMの進化とともに急速に廃れていく。
さらに、これらの識別的評価は、LLMの値に対する行動整合性の有効な評価よりも、LLMの値に関する知識を明らかにする。
(3)価値多元主義:個人と文化にまたがる人的価値の多元的性質は、LLMの価値アライメントの測定において無視される。
これらの課題に対処するため、3つのモジュールが設計されたValue Compass Leaderboardを紹介します。
それ
i) LLMの根底にある価値を全体的視点から明らかにするために,モチベーション的に異なる \textit{basic value に基づく評価を基礎とする。
(二) LLMの進化と現実シナリオにおける行動からの直接的価値認識のための適応的テスト項目を備えた「textit{generative evolution evaluation framework」を適用する。
(iii)複数次元上の重み付け和として特定の値とLLMのアライメントを定量化する計量を提案し、重み付けは多元的値によって決定される。
関連論文リスト
- CLAVE: An Adaptive Framework for Evaluating Values of LLM Generated Responses [34.77031649891843]
CLAVEは2つの補完的なLarge Language Model(LLM)を統合する新しいフレームワークである。
このデュアルモデルアプローチは、値タイプ当たり100個の人ラベルサンプルを使用して、任意の値システムでキャリブレーションを可能にする。
ValEvalは13k+(text,value,label)12+を多種多様なドメインで構成し、3つの主要なバリューシステムをカバーする包括的データセットである。
論文 参考訳(メタデータ) (2024-07-15T13:51:37Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Beyond Human Norms: Unveiling Unique Values of Large Language Models through Interdisciplinary Approaches [69.73783026870998]
本研究では,大言語モデルの固有値システムをスクラッチから再構築する新しいフレームワークであるValueLexを提案する。
語彙仮説に基づいて、ValueLexは30以上のLLMから様々な値を引き出すための生成的アプローチを導入している。
我々は,3つのコア値次元,能力,キャラクタ,積分をそれぞれ特定の部分次元で同定し,LLMが非人間的だが構造化された価値体系を持っていることを明らかにした。
論文 参考訳(メタデータ) (2024-04-19T09:44:51Z) - Value FULCRA: Mapping Large Language Models to the Multidimensional
Spectrum of Basic Human Values [47.779186412943076]
本稿では,新しい基本値アライメントパラダイムと,基本値次元にまたがる値空間を提案する。
人文科学における人文科学と社会科学の基本的価値観に触発され、この研究は、新しい基本的価値アライメントパラダイムと、基本的価値次元にまたがる価値空間を提案する。
今後の研究を促進するために、代表的シュワルツの基本値理論を例として応用し、5k(LLM出力、値ベクトル)ペアからなるデータセットであるFULCRAを構築する。
論文 参考訳(メタデータ) (2023-11-15T10:29:28Z) - Flames: Benchmarking Value Alignment of LLMs in Chinese [86.73527292670308]
本稿では,Flamesという値アライメントベンチマークを提案する。
一般的な無害の原則と、特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。
以上の結果から, 評価されたLLMはフラムに対して比較的低い性能を示した。
論文 参考訳(メタデータ) (2023-11-12T17:18:21Z) - Denevil: Towards Deciphering and Navigating the Ethical Values of Large
Language Models via Instruction Learning [36.66806788879868]
大きな言語モデル(LLM)は前例のない突破口をたどったが、彼らの日常生活への統合は非倫理的コンテンツによって社会的リスクを引き起こす可能性がある。
この研究はモラル・ファンデーション理論を利用した倫理的価値を論じている。
論文 参考訳(メタデータ) (2023-10-17T07:42:40Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。
本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文 参考訳(メタデータ) (2023-05-26T02:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。