Fugu-MT 論文翻訳(概要): Value FULCRA: Mapping Large Language Models to the Multidimensional Spectrum of Basic Human Values

論文の概要: Value FULCRA: Mapping Large Language Models to the Multidimensional Spectrum of Basic Human Values

arxiv url: http://arxiv.org/abs/2311.10766v1
Date: Wed, 15 Nov 2023 10:29:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-27 00:32:22.478093
Title: Value FULCRA: Mapping Large Language Models to the Multidimensional Spectrum of Basic Human Values
Title（参考訳）: Value FULCRA:大きな言語モデルを基本的人間の価値の多次元スペクトルにマッピングする
Authors: Jing Yao, Xiaoyuan Yi, Xiting Wang, Yifan Gong and Xing Xie
Abstract要約: 本稿では,新しい基本値アライメントパラダイムと,基本値次元にまたがる値空間を提案する。人文科学における人文科学と社会科学の基本的価値観に触発され、この研究は、新しい基本的価値アライメントパラダイムと、基本的価値次元にまたがる価値空間を提案する。今後の研究を促進するために、代表的シュワルツの基本値理論を例として応用し、5k(LLM出力、値ベクトル)ペアからなるデータセットであるFULCRAを構築する。
参考スコア（独自算出の注目度）: 47.779186412943076
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapid advancement of Large Language Models (LLMs) has attracted much attention to value alignment for their responsible development. However, how to define values in this context remains a largely unexplored question. Existing work mainly follows the Helpful, Honest, Harmless principle and specifies values as risk criteria formulated in the AI community, e.g., fairness and privacy protection, suffering from poor clarity, adaptability and transparency. Inspired by basic values in humanity and social science across cultures, this work proposes a novel basic value alignment paradigm and introduces a value space spanned by basic value dimensions. All LLMs' behaviors can be mapped into the space by identifying the underlying values, possessing the potential to address the three challenges. To foster future research, we apply the representative Schwartz's Theory of Basic Values as an initialized example and construct FULCRA, a dataset consisting of 5k (LLM output, value vector) pairs. Our extensive analysis of FULCRA reveals the underlying relation between basic values and LLMs' behaviors, demonstrating that our approach not only covers existing mainstream risks but also anticipates possibly unidentified ones. Additionally, we present an initial implementation of the basic value evaluation and alignment, paving the way for future research in this line.
Abstract（参考訳）: LLM(Large Language Models)の急速な進歩は、彼らの責任ある開発に対する価値アライメントに大きな注目を集めている。しかし、この文脈で値をどのように定義するかは、ほとんど未解決の問題だ。既存の作業は、主に有益で正直で無害な原則に従い、aiコミュニティで定式化されたリスク基準、例えば公平さとプライバシ保護、不十分な明快さ、適応性、透明性に苦しむこと、などを規定している。人類の基本的価値と文化をまたがる社会科学に着想を得た本研究は,新しい基本的価値のアライメントパラダイムを提案し,基本的価値次元にまたがる価値空間を導入する。 LLMのすべての振る舞いは、基礎となる値を特定し、3つの課題に対処する可能性を持つことによって、空間にマッピングすることができる。将来の研究を促進するために、シュワルツの基本的な値の理論を初期化の例とし、5k(llm出力、値ベクトル)ペアからなるデータセットであるfulcraを構築する。 FULCRAを広範囲に分析した結果, 基本値とLCMの挙動の関係が明らかになり, 既存のリスクだけでなく, 未同定のリスクも予測できることがわかった。さらに,本行における今後の研究の道筋を示す,基本的な価値評価とアライメントの初期実装について述べる。

関連論文リスト

Generative Psycho-Lexical Approach for Constructing Value Systems in Large Language Models [13.513813405118478]
大規模言語モデル(LLM)は、その本質的な価値に関する懸念を提起している。本研究は、生成心理学的アプローチ(GPLA)の導入によるギャップに対処する。 LLMに適した心理学的基礎を持つ5要素値システムを提案する。
論文参考訳（メタデータ） (2025-02-04T16:10:55Z)
Value Compass Leaderboard: A Platform for Fundamental and Validated Evaluation of LLMs Values [76.70893269183684]
大きな言語モデル(LLM)は目覚ましいブレークスルーを達成し、その価値を人間と一致させることが必須になっている。既存の評価は、バイアスや毒性といった安全性のリスクに焦点を絞っている。既存のベンチマークはデータ汚染の傾向があります。個人や文化にまたがる人的価値の多元的性質は、LLM値アライメントの測定において無視される。
論文参考訳（メタデータ） (2025-01-13T05:53:56Z)
CLAVE: An Adaptive Framework for Evaluating Values of LLM Generated Responses [34.77031649891843]
CLAVEは2つの補完的なLarge Language Model(LLM)を統合する新しいフレームワークである。このデュアルモデルアプローチは、値タイプ当たり100個の人ラベルサンプルを使用して、任意の値システムでキャリブレーションを可能にする。 ValEvalは13k+(text,value,label)12+を多種多様なドメインで構成し、3つの主要なバリューシステムをカバーする包括的データセットである。
論文参考訳（メタデータ） (2024-07-15T13:51:37Z)
ValueBench: Towards Comprehensively Evaluating Value Orientations and Understanding of Large Language Models [14.268555410234804]
大規模言語モデル(LLM)は多様な分野を変革し、人間のプロキシとして影響力を増している。この研究は、LLMにおける価値オリエンテーションと価値理解を評価するための最初の総合的な心理測定ベンチマークであるValueBenchを紹介した。
論文参考訳（メタデータ） (2024-06-06T16:14:16Z)
Beyond Human Norms: Unveiling Unique Values of Large Language Models through Interdisciplinary Approaches [69.73783026870998]
本研究では,大言語モデルの固有値システムをスクラッチから再構築する新しいフレームワークであるValueLexを提案する。語彙仮説に基づいて、ValueLexは30以上のLLMから様々な値を引き出すための生成的アプローチを導入している。我々は,3つのコア値次元,能力,キャラクタ,積分をそれぞれ特定の部分次元で同定し,LLMが非人間的だが構造化された価値体系を持っていることを明らかにした。
論文参考訳（メタデータ） (2024-04-19T09:44:51Z)
Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。我々の調査は、この信念に対する重大な監視を露呈している。我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文参考訳（メタデータ） (2024-04-16T13:22:54Z)
Denevil: Towards Deciphering and Navigating the Ethical Values of Large Language Models via Instruction Learning [36.66806788879868]
大きな言語モデル(LLM)は前例のない突破口をたどったが、彼らの日常生活への統合は非倫理的コンテンツによって社会的リスクを引き起こす可能性がある。この研究はモラル・ファンデーション理論を利用した倫理的価値を論じている。
論文参考訳（メタデータ） (2023-10-17T07:42:40Z)
Value Kaleidoscope: Engaging AI with Pluralistic Human Values, Rights, and Duties [68.66719970507273]
価値多元性とは、複数の正しい値が互いに緊張して保持されるという考え方である。統計的学習者として、AIシステムはデフォルトで平均に適合する。 ValuePrismは、218kの値、権利、義務の大規模なデータセットで、31kの人間が記述した状況に関連付けられています。
論文参考訳（メタデータ） (2023-09-02T01:24:59Z)
CValues: Measuring the Values of Chinese Large Language Models from Safety to Responsibility [62.74405775089802]
LLMのアライメント能力を測定するために,中国初の人的価値評価ベンチマークであるCValuesを提案する。その結果、我々は10のシナリオにまたがる敵の安全プロンプトを手作業で収集し、8つのドメインから責任プロンプトを誘導した。以上の結果から,ほとんどの中国のLLMは安全面では良好に機能するが,責任面では十分な改善の余地があることが示唆された。
論文参考訳（メタデータ） (2023-07-19T01:22:40Z)
Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文参考訳（メタデータ） (2023-05-26T02:34:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。