論文の概要: Beyond Human Norms: Unveiling Unique Values of Large Language Models through Interdisciplinary Approaches
- arxiv url: http://arxiv.org/abs/2404.12744v1
- Date: Fri, 19 Apr 2024 09:44:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 15:36:14.865016
- Title: Beyond Human Norms: Unveiling Unique Values of Large Language Models through Interdisciplinary Approaches
- Title(参考訳): 人間のノルムを超えて:学際的アプローチによる大規模言語モデルの特異な価値を明らかにする
- Authors: Pablo Biedma, Xiaoyuan Yi, Linus Huang, Maosong Sun, Xing Xie,
- Abstract要約: 本研究では,大言語モデルの固有値システムをスクラッチから再構築する新しいフレームワークであるValueLexを提案する。
語彙仮説に基づいて、ValueLexは30以上のLLMから様々な値を引き出すための生成的アプローチを導入している。
我々は,3つのコア値次元,能力,キャラクタ,積分をそれぞれ特定の部分次元で同定し,LLMが非人間的だが構造化された価値体系を持っていることを明らかにした。
- 参考スコア(独自算出の注目度): 69.73783026870998
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in Large Language Models (LLMs) have revolutionized the AI field but also pose potential safety and ethical risks. Deciphering LLMs' embedded values becomes crucial for assessing and mitigating their risks. Despite extensive investigation into LLMs' values, previous studies heavily rely on human-oriented value systems in social sciences. Then, a natural question arises: Do LLMs possess unique values beyond those of humans? Delving into it, this work proposes a novel framework, ValueLex, to reconstruct LLMs' unique value system from scratch, leveraging psychological methodologies from human personality/value research. Based on Lexical Hypothesis, ValueLex introduces a generative approach to elicit diverse values from 30+ LLMs, synthesizing a taxonomy that culminates in a comprehensive value framework via factor analysis and semantic clustering. We identify three core value dimensions, Competence, Character, and Integrity, each with specific subdimensions, revealing that LLMs possess a structured, albeit non-human, value system. Based on this system, we further develop tailored projective tests to evaluate and analyze the value inclinations of LLMs across different model sizes, training methods, and data sources. Our framework fosters an interdisciplinary paradigm of understanding LLMs, paving the way for future AI alignment and regulation.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、AI分野に革命をもたらしたが、潜在的な安全性と倫理的リスクをもたらしている。
LLMの組込み値の解読は、リスクの評価と緩和に不可欠である。
LLMの価値観に関する広範な研究にもかかわらず、以前の研究は社会科学における人間指向の価値体系に大きく依存していた。
LLMは人間のもの以上のユニークな価値を持っているのだろうか?
そこで本研究では,LLMのユニークな価値体系をスクラッチから再構築する新たな枠組みであるValueLexを提案する。
語彙仮説に基づいて、ValueLexは30以上のLLMから多様な値を抽出する生成的アプローチを導入し、因子分析とセマンティッククラスタリングを通じて包括的なバリューフレームワークで決定される分類を合成する。
我々は,3つのコア値次元,能力,キャラクタ,積分をそれぞれ特定の部分次元で同定し,LLMが非人間的だが構造化された価値体系を持っていることを明らかにした。
本システムでは, モデルサイズ, トレーニング方法, およびデータソースにまたがるLCM値の傾きの評価, 解析を行うため, プロジェクティブ・テストの開発が進められている。
我々のフレームワークは、LLMを理解するための学際パラダイムを育み、将来のAIアライメントと規制の道を開く。
関連論文リスト
- Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Value FULCRA: Mapping Large Language Models to the Multidimensional
Spectrum of Basic Human Values [47.779186412943076]
本稿では,新しい基本値アライメントパラダイムと,基本値次元にまたがる値空間を提案する。
人文科学における人文科学と社会科学の基本的価値観に触発され、この研究は、新しい基本的価値アライメントパラダイムと、基本的価値次元にまたがる価値空間を提案する。
今後の研究を促進するために、代表的シュワルツの基本値理論を例として応用し、5k(LLM出力、値ベクトル)ペアからなるデータセットであるFULCRAを構築する。
論文 参考訳(メタデータ) (2023-11-15T10:29:28Z) - LUNA: A Model-Based Universal Analysis Framework for Large Language
Models [19.987824870961926]
自己保持機構, 極めて大規模なモデルスケール, 自己回帰生成スキーマは, 品質解析における新たな課題を提示する。
汎用かつ解釈可能なLLMの普遍的解析フレームワークを提案する。
特に、私たちはまず、望ましい信頼性の観点からのデータを活用して抽象モデルを構築します。
論文 参考訳(メタデータ) (2023-10-22T07:26:21Z) - Denevil: Towards Deciphering and Navigating the Ethical Values of Large
Language Models via Instruction Learning [36.66806788879868]
大きな言語モデル(LLM)は前例のない突破口をたどったが、彼らの日常生活への統合は非倫理的コンテンツによって社会的リスクを引き起こす可能性がある。
この研究はモラル・ファンデーション理論を利用した倫理的価値を論じている。
論文 参考訳(メタデータ) (2023-10-17T07:42:40Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。
本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文 参考訳(メタデータ) (2023-05-26T02:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。