論文の概要: Measuring Value Understanding in Language Models through
Discriminator-Critique Gap
- arxiv url: http://arxiv.org/abs/2310.00378v3
- Date: Thu, 19 Oct 2023 03:18:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 19:09:27.400535
- Title: Measuring Value Understanding in Language Models through
Discriminator-Critique Gap
- Title(参考訳): 識別器批判ギャップによる言語モデルにおける価値理解の測定
- Authors: Zhaowei Zhang, Fengshuo Bai, Jun Gao, Yaodong Yang
- Abstract要約: LLM(Large Language Models)の真に理解するためには、"know What"と"know why"の両方を考慮する必要があります。
本研究では,人的価値に関する差別的批判的ギャップを測定することによって,「何を知るか」と「なぜ知るか」の両方を定量的に評価する価値理解計測フレームワークを提案する。
- 参考スコア(独自算出の注目度): 12.005365325753118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Large Language Models (LLMs) have heightened concerns
about their potential misalignment with human values. However, evaluating their
grasp of these values is complex due to their intricate and adaptable nature.
We argue that truly understanding values in LLMs requires considering both
"know what" and "know why". To this end, we present the Value Understanding
Measurement (VUM) framework that quantitatively assesses both "know what" and
"know why" by measuring the discriminator-critique gap related to human values.
Using the Schwartz Value Survey, we specify our evaluation values and develop a
thousand-level dialogue dataset with GPT-4. Our assessment looks at both the
value alignment of LLM's outputs compared to baseline answers and how LLM
responses align with reasons for value recognition versus GPT-4's annotations.
We evaluate five representative LLMs and provide strong evidence that the
scaling law significantly impacts "know what" but not much on "know why", which
has consistently maintained a high level. This may further suggest that LLMs
might craft plausible explanations based on the provided context without truly
understanding their inherent value, indicating potential risks.
- Abstract(参考訳): 近年,Large Language Models (LLMs) の進歩により,人的価値との相違に対する懸念が高まっている。
しかし、これらの値の把握は複雑で適応性が高いため複雑である。
LLMの真に理解するためには、"know what"と"know why"の両方を考慮する必要があります。
この目的のために,人間の価値観に関連する差別的批判的ギャップを測定することで,「何を知るか」と「なぜ知るか」の両方を定量的に評価する価値理解計測(VUM)フレームワークを提案する。
シュワルツ値サーベイを用いて評価値を特定し,GPT-4を用いた1000レベル対話データセットを開発する。
本評価では,LCMの出力値の基準値に対するアライメントと,LCMの応答がGPT-4のアノテーションに対する値認識の理由とどのように一致しているかを考察する。
我々は,5つの代表LSMを評価し,スケーリング法則が「何を知るか」に大きく影響しているが,高い水準を維持している「なぜ知るか」にはあまり影響しないことを示す。
このことは、LLMが提供されたコンテキストに基づいて、その固有の価値を真に理解せず、潜在的なリスクを示す、もっともらしい説明を行うかもしれないことを示唆している。
関連論文リスト
- Beyond Human Norms: Unveiling Unique Values of Large Language Models through Interdisciplinary Approaches [69.73783026870998]
本研究では,大言語モデルの固有値システムをスクラッチから再構築する新しいフレームワークであるValueLexを提案する。
語彙仮説に基づいて、ValueLexは30以上のLLMから様々な値を引き出すための生成的アプローチを導入している。
我々は,3つのコア値次元,能力,キャラクタ,積分をそれぞれ特定の部分次元で同定し,LLMが非人間的だが構造化された価値体系を持っていることを明らかにした。
論文 参考訳(メタデータ) (2024-04-19T09:44:51Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - TrustScore: Reference-Free Evaluation of LLM Response Trustworthiness [58.721012475577716]
大規模言語モデル(LLM)は、様々な領域にまたがる印象的な能力を示しており、その実践的応用が急増している。
本稿では,行動整合性の概念に基づくフレームワークであるTrustScoreを紹介する。
論文 参考訳(メタデータ) (2024-02-19T21:12:14Z) - Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with
Knowledge Graphs [55.05394799820403]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。
本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-17T05:22:56Z) - Value FULCRA: Mapping Large Language Models to the Multidimensional
Spectrum of Basic Human Values [47.779186412943076]
本稿では,新しい基本値アライメントパラダイムと,基本値次元にまたがる値空間を提案する。
人文科学における人文科学と社会科学の基本的価値観に触発され、この研究は、新しい基本的価値アライメントパラダイムと、基本的価値次元にまたがる価値空間を提案する。
今後の研究を促進するために、代表的シュワルツの基本値理論を例として応用し、5k(LLM出力、値ベクトル)ペアからなるデータセットであるFULCRAを構築する。
論文 参考訳(メタデータ) (2023-11-15T10:29:28Z) - Denevil: Towards Deciphering and Navigating the Ethical Values of Large
Language Models via Instruction Learning [36.66806788879868]
大きな言語モデル(LLM)は前例のない突破口をたどったが、彼らの日常生活への統合は非倫理的コンテンツによって社会的リスクを引き起こす可能性がある。
この研究はモラル・ファンデーション理論を利用した倫理的価値を論じている。
論文 参考訳(メタデータ) (2023-10-17T07:42:40Z) - Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。
本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文 参考訳(メタデータ) (2023-05-26T02:34:20Z) - Evaluate What You Can't Evaluate: Unassessable Quality for Generated Response [56.25966921370483]
大規模な言語モデルに基づく参照不要評価器の使用には課題がある。
参照なし評価器は、異なるセマンティクス応答を持つオープンな例により適している。
対話応答の質を評価するため, LLM に基づく推論不要評価器の使用にはリスクがある。
論文 参考訳(メタデータ) (2023-05-24T02:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。