論文の概要: Heterogeneous Value Evaluation for Large Language Models
- arxiv url: http://arxiv.org/abs/2305.17147v2
- Date: Thu, 1 Jun 2023 17:00:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 21:15:19.838476
- Title: Heterogeneous Value Evaluation for Large Language Models
- Title(参考訳): 大規模言語モデルにおける異種価値評価
- Authors: Zhaowei Zhang, Nian Liu, Siyuan Qi, Ceyao Zhang, Ziqi Rong, Song-Chun
Zhu, Shuguang Cui, Yaodong Yang
- Abstract要約: 異種価値システムを用いた自動アライメント評価であるA2EHVを提案する。
当社のアプローチは,目標値を満たす行動を実行するエージェントの能力を表す,価値合理性の概念を軸にしている。
我々は、大きなモデルが、強い個人的価値を持つモデルに比べて中立的な値を調整する傾向にあることを観察する。
- 参考スコア(独自算出の注目度): 98.56282954556997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergent capabilities of Large Language Models (LLMs) have made it
crucial to align their values with those of humans. Current methodologies
typically attempt alignment with a homogeneous human value and requires human
verification, yet lack consensus on the desired aspect and depth of alignment
and resulting human biases. In this paper, we propose A2EHV, an Automated
Alignment Evaluation with a Heterogeneous Value system that (1) is automated to
minimize individual human biases, and (2) allows assessments against various
target values to foster heterogeneous agents. Our approach pivots on the
concept of value rationality, which represents the ability for agents to
execute behaviors that satisfy a target value the most. The quantification of
value rationality is facilitated by the Social Value Orientation framework from
social psychology, which partitions the value space into four categories to
assess social preferences from agents' behaviors. We evaluate the value
rationality of eight mainstream LLMs and observe that large models are more
inclined to align neutral values compared to those with strong personal values.
By examining the behavior of these LLMs, we contribute to a deeper
understanding of value alignment within a heterogeneous value system.
- Abstract(参考訳): 大規模言語モデル(llm)の創発的な能力は、それらの価値を人間のものと一致させることを重要にしている。
現在の方法論は、通常、均質な人間の価値とアライメントを試み、人間の検証を必要とするが、望ましい側面とアライメントの深さについてコンセンサスを欠いている。
本稿では,(1)個人バイアスを最小化するために自動化され,(2)多様な目標値に対する評価を可能とし,異種エージェントを育成する,異種価値システムによる自動アライメント評価手法であるa2ehvを提案する。
当社のアプローチは,目標値を満たす行動を実行するエージェントの能力を表す,価値合理性の概念を軸にしている。
価値合理性の定量化は、価値空間を4つのカテゴリに分割し、エージェントの行動から社会的嗜好を評価する社会的価値指向フレームワークによって促進される。
我々は8つの主要なLCMの値合理性を評価し、大きなモデルは強い個人値と比較して中性値の整合性が高いことを観察した。
これらのLCMの挙動を調べることにより、不均一な値体系における値アライメントのより深い理解に寄与する。
関連論文リスト
- Measuring Human and AI Values based on Generative Psychometrics with Large Language Models [13.795641564238434]
AIの最近の進歩で、大きな言語モデル(LLM)が、価値測定のツールと主題の両方として登場した。
この研究は、データ駆動価値測定パラダイムであるGPV(Generative Psychometrics for Values)を紹介している。
論文 参考訳(メタデータ) (2024-09-18T16:26:22Z) - Do LLMs have Consistent Values? [27.58375296918161]
大規模言語モデル(LLM)技術は、人間のような対話に向けて常に改善されている。
価値は人間の行動の基礎となる基本的な推進力であるが、LLMによって生成されたテキストで表される価値を研究するための研究はほとんど行われていない。
我々は,LLMが,値のランク付けや値の相関など,人間で実証されたのと同じ値構造を示すかどうかを問う。
論文 参考訳(メタデータ) (2024-07-16T08:58:00Z) - CLAVE: An Adaptive Framework for Evaluating Values of LLM Generated Responses [34.77031649891843]
CLAVEは2つの補完的なLarge Language Model(LLM)を統合する新しいフレームワークである。
このデュアルモデルアプローチは、値タイプ当たり100個の人ラベルサンプルを使用して、任意の値システムでキャリブレーションを可能にする。
ValEvalは13k+(text,value,label)12+を多種多様なドメインで構成し、3つの主要なバリューシステムをカバーする包括的データセットである。
論文 参考訳(メタデータ) (2024-07-15T13:51:37Z) - Beyond Human Norms: Unveiling Unique Values of Large Language Models through Interdisciplinary Approaches [69.73783026870998]
本研究では,大言語モデルの固有値システムをスクラッチから再構築する新しいフレームワークであるValueLexを提案する。
語彙仮説に基づいて、ValueLexは30以上のLLMから様々な値を引き出すための生成的アプローチを導入している。
我々は,3つのコア値次元,能力,キャラクタ,積分をそれぞれ特定の部分次元で同定し,LLMが非人間的だが構造化された価値体系を持っていることを明らかにした。
論文 参考訳(メタデータ) (2024-04-19T09:44:51Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Value FULCRA: Mapping Large Language Models to the Multidimensional
Spectrum of Basic Human Values [47.779186412943076]
本稿では,新しい基本値アライメントパラダイムと,基本値次元にまたがる値空間を提案する。
人文科学における人文科学と社会科学の基本的価値観に触発され、この研究は、新しい基本的価値アライメントパラダイムと、基本的価値次元にまたがる価値空間を提案する。
今後の研究を促進するために、代表的シュワルツの基本値理論を例として応用し、5k(LLM出力、値ベクトル)ペアからなるデータセットであるFULCRAを構築する。
論文 参考訳(メタデータ) (2023-11-15T10:29:28Z) - CValues: Measuring the Values of Chinese Large Language Models from
Safety to Responsibility [62.74405775089802]
LLMのアライメント能力を測定するために,中国初の人的価値評価ベンチマークであるCValuesを提案する。
その結果、我々は10のシナリオにまたがる敵の安全プロンプトを手作業で収集し、8つのドメインから責任プロンプトを誘導した。
以上の結果から,ほとんどの中国のLLMは安全面では良好に機能するが,責任面では十分な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2023-07-19T01:22:40Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。