Fugu-MT 論文翻訳(概要): ValueCompass: A Framework of Fundamental Values for Human-AI Alignment

論文の概要: ValueCompass: A Framework of Fundamental Values for Human-AI Alignment

arxiv url: http://arxiv.org/abs/2409.09586v1
Date: Sun, 15 Sep 2024 02:13:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-17 20:07:53.470881
Title: ValueCompass: A Framework of Fundamental Values for Human-AI Alignment
Title（参考訳）: ValueCompass: ヒューマンAIアライメントのための基本的な価値のフレームワーク
Authors: Hua Shen, Tiffany Knearem, Reshmi Ghosh, Yu-Ju Yang, Tanushree Mitra, Yun Huang,
Abstract要約: 本稿では,心理学的理論と体系的レビューに基づく基本的価値の枠組みであるバリューを紹介する。本研究では,人間と言語モデル(LM)の価値アライメントを測定するために,実世界の4つのヴィグネットに価値を適用した。以下に示すのは、人間とLMの危険な相違を明らかにすることであり、例えば、LMは人間によってほとんど意見が一致しない「自己のゴール」のような価値観と一致している。
参考スコア（独自算出の注目度）: 15.35489011078817
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As AI systems become more advanced, ensuring their alignment with a diverse range of individuals and societal values becomes increasingly critical. But how can we capture fundamental human values and assess the degree to which AI systems align with them? We introduce ValueCompass, a framework of fundamental values, grounded in psychological theory and a systematic review, to identify and evaluate human-AI alignment. We apply ValueCompass to measure the value alignment of humans and language models (LMs) across four real-world vignettes: collaborative writing, education, public sectors, and healthcare. Our findings uncover risky misalignment between humans and LMs, such as LMs agreeing with values like "Choose Own Goals", which are largely disagreed by humans. We also observe values vary across vignettes, underscoring the necessity for context-aware AI alignment strategies. This work provides insights into the design space of human-AI alignment, offering foundations for developing AI that responsibly reflects societal values and ethics.
Abstract（参考訳）: AIシステムがより高度化するにつれて、さまざまな個人や社会的価値との整合性を確保することがますます重要になる。しかし、基本的な人間の価値をキャプチャして、AIシステムがそれらと整合する程度を評価するにはどうすればよいのか? 本稿では,人間のAIアライメントを識別・評価するために,心理学的理論と体系的レビューに基づく基本的価値の枠組みであるValueCompassを紹介する。本研究では,人間と言語モデル(LM)の価値アライメントを,共同執筆,教育,公共部門,医療の4つの現実のヴィグネットで測定するために,ValueCompassを適用した。以下に示すのは、人間とLMの危険な相違を明らかにすることであり、例えば、LMは人間によってほとんど意見が一致しない「自己のゴール」のような価値観と一致している。また、Vignetteによって異なる値も観察し、コンテキスト対応のAIアライメント戦略の必要性を強調します。この研究は、人間のAIアライメントのデザイン空間に関する洞察を提供し、社会的価値と倫理を責任を持って反映するAI開発の基礎を提供する。

関連論文リスト

Learning the Value Systems of Societies from Preferences [1.3836987591220347]
人間の価値観と様々な利害関係者の価値観に基づく嗜好を持つAIシステムを調整することは、倫理的AIにおいて鍵となる。価値認識型AIシステムでは、意思決定は個々の値の明示的な計算表現に基づいて行われる。本稿では,社会の価値体系を学習する上での課題に対処する手法を提案する。
論文参考訳（メタデータ） (2025-07-28T11:25:55Z)
Measurement of LLM's Philosophies of Human Nature [113.47929131143766]
大規模言語モデル(LLM)を対象とする標準化された心理尺度を設計する。現在のLSMは、人間に対する信頼の欠如を示す。本稿では,LLMが継続的に価値体系を最適化できるメンタルループ学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-03T06:22:19Z)
Generative Psycho-Lexical Approach for Constructing Value Systems in Large Language Models [13.513813405118478]
大規模言語モデル(LLM)は、その本質的な価値に関する懸念を提起している。本研究は、生成心理学的アプローチ(GPLA)の導入によるギャップに対処する。 LLMに適した心理学的基礎を持つ5要素値システムを提案する。
論文参考訳（メタデータ） (2025-02-04T16:10:55Z)
Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions [101.67121669727354]
近年のAIの進歩は、AIシステムを意図された目標、倫理的原則、個人とグループの価値に向けて導くことの重要性を強調している。人間のAIアライメントの明確な定義とスコープの欠如は、このアライメントを達成するための研究領域間の共同作業を妨げる、大きな障害となる。我々は、2019年から2024年1月までに400以上の論文を体系的にレビューし、HCI(Human-Computer Interaction)、自然言語処理(NLP)、機械学習(ML)といった複数の分野にまたがって紹介する。
論文参考訳（メタデータ） (2024-06-13T16:03:25Z)
Beyond Human Norms: Unveiling Unique Values of Large Language Models through Interdisciplinary Approaches [69.73783026870998]
本研究では,大言語モデルの固有値システムをスクラッチから再構築する新しいフレームワークであるValueLexを提案する。語彙仮説に基づいて、ValueLexは30以上のLLMから様々な値を引き出すための生成的アプローチを導入している。我々は,3つのコア値次元,能力,キャラクタ,積分をそれぞれ特定の部分次元で同定し,LLMが非人間的だが構造化された価値体系を持っていることを明らかにした。
論文参考訳（メタデータ） (2024-04-19T09:44:51Z)
Measuring Value Alignment [12.696227679697493]
本稿では,AIシステムと人的価値の整合性を定量化する新しいフォーマリズムを提案する。このフォーマリズムを利用することで、AI開発者と倫理学者は、人間の価値と調和して動作するように、AIシステムを設計し、評価することができる。
論文参考訳（メタデータ） (2023-12-23T12:30:06Z)
Learning Human-like Representations to Enable Learning Human Values [11.236150405125754]
我々は,人間とAIエージェントの表現的アライメントが人的価値の学習に与える影響を考察する。このような表現的アライメントは、パーソナライゼーションの文脈において、人間の価値を安全に学習し、探索する上で有効であることを示す。
論文参考訳（メタデータ） (2023-12-21T18:31:33Z)
AI Alignment: A Comprehensive Survey [70.35693485015659]
AIアライメントは、AIシステムが人間の意図や価値観に沿って振る舞うようにすることを目的としている。 AIアライメントの重要な目的として、ロバストネス、解釈可能性、制御可能性、倫理という4つの原則を特定します。我々は、現在のアライメント研究を、前方アライメントと後方アライメントの2つの重要なコンポーネントに分解する。
論文参考訳（メタデータ） (2023-10-30T15:52:15Z)
Value Kaleidoscope: Engaging AI with Pluralistic Human Values, Rights, and Duties [68.66719970507273]
価値多元性とは、複数の正しい値が互いに緊張して保持されるという考え方である。統計的学習者として、AIシステムはデフォルトで平均に適合する。 ValuePrismは、218kの値、権利、義務の大規模なデータセットで、31kの人間が記述した状況に関連付けられています。
論文参考訳（メタデータ） (2023-09-02T01:24:59Z)
Training Socially Aligned Language Models on Simulated Social Interactions [99.39979111807388]
AIシステムにおける社会的アライメントは、確立された社会的価値に応じてこれらのモデルが振舞うことを保証することを目的としている。現在の言語モデル(LM)は、トレーニングコーパスを独立して厳格に複製するように訓練されている。本研究は,シミュレートされた社会的相互作用からLMを学習することのできる,新しい学習パラダイムを提案する。
論文参考訳（メタデータ） (2023-05-26T14:17:36Z)
Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文参考訳（メタデータ） (2023-05-26T02:34:20Z)
A computational framework of human values for ethical AI [3.5027291542274357]
価値は倫理的AIを設計する手段を提供する。値の形式的、計算的な定義はまだ提案されていない。我々はこれを、社会科学に根ざした形式的な概念的枠組みを通じて解決する。
論文参考訳（メタデータ） (2023-05-04T11:35:41Z)
Metaethical Perspectives on 'Benchmarking' AI Ethics [81.65697003067841]
ベンチマークは、人工知能(AI)研究の技術的進歩を測定するための基盤とみられている。 AIの顕著な研究領域は倫理であり、現在、ベンチマークのセットも、AIシステムの「倫理性」を測定する一般的な方法もない。我々は、現在と将来のAIシステムのアクションを考えるとき、倫理よりも「価値」について話す方が理にかなっていると論じる。
論文参考訳（メタデータ） (2022-04-11T14:36:39Z)
The Challenge of Value Alignment: from Fairer Algorithms to AI Safety [2.28438857884398]
本稿では,AIシステムを人的価値と整合させる方法について論じる。それは、技術と価値に関するより広い考え方の体系の中に収まる。
論文参考訳（メタデータ） (2021-01-15T11:03:15Z)
Aligning AI With Shared Human Values [85.2824609130584]
私たちは、正義、幸福、義務、美徳、常識道徳の概念にまたがる新しいベンチマークであるETHICSデータセットを紹介します。現在の言語モデルは、基本的な人間の倫理的判断を予測できる有望だが不完全な能力を持っている。私たちの研究は、今日の機械倫理の進歩を示しており、人間の価値観に合わせたAIへの足掛かりを提供する。
論文参考訳（メタデータ） (2020-08-05T17:59:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。