論文の概要: Concept Alignment as a Prerequisite for Value Alignment
- arxiv url: http://arxiv.org/abs/2310.20059v1
- Date: Mon, 30 Oct 2023 22:23:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 17:27:56.112908
- Title: Concept Alignment as a Prerequisite for Value Alignment
- Title(参考訳): 価値アライメントの前提条件としての概念アライメント
- Authors: Sunayana Rane, Mark Ho, Ilia Sucholutsky, Thomas L. Griffiths
- Abstract要約: 価値アライメントは、人々と安全かつ確実に対話できるAIシステムを構築するために不可欠である。
概念のアライメントが体系的な価値のアライメントにどのように結びつくかを示します。
我々は、人の概念や価値観を共同で推論することで、このような障害モードを最小化するアプローチについて説明する。
- 参考スコア(独自算出の注目度): 11.236150405125754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Value alignment is essential for building AI systems that can safely and
reliably interact with people. However, what a person values -- and is even
capable of valuing -- depends on the concepts that they are currently using to
understand and evaluate what happens in the world. The dependence of values on
concepts means that concept alignment is a prerequisite for value alignment --
agents need to align their representation of a situation with that of humans in
order to successfully align their values. Here, we formally analyze the concept
alignment problem in the inverse reinforcement learning setting, show how
neglecting concept alignment can lead to systematic value mis-alignment, and
describe an approach that helps minimize such failure modes by jointly
reasoning about a person's concepts and values. Additionally, we report
experimental results with human participants showing that humans reason about
the concepts used by an agent when acting intentionally, in line with our joint
reasoning model.
- Abstract(参考訳): 価値アライメントは、人々と安全かつ確実に対話できるAIシステムを構築するために不可欠である。
しかし、ある人が-そしてその価値を評価できることは、現在世界中で何が起こっているのかを理解し、評価するために使われている概念に依存する。
概念への価値の依存は、概念のアライメントが価値アライメントの前提条件であることを意味します。
本稿では,逆強化学習環境における概念アライメント問題を形式的に解析し,概念アライメントの無視が系統的価値のミスアラインメントにつながることを示すとともに,その概念と価値を共同で推論することで,障害モードを最小化する手法について述べる。
また,人間の被験者による実験結果から,エージェントが意図的に行動する際に使用する概念を,共同推論モデルに則って判断することを示した。
関連論文リスト
- Concept Alignment [10.285482205152729]
我々は、私たちが価値を整合させる前に、AIシステムと人間が世界を理解するために使用する概念を整合させることが不可欠であると主張する。
哲学、認知科学、ディープラーニングのアイデアを統合し、概念の整合性の必要性を説明します。
論文 参考訳(メタデータ) (2024-01-09T23:32:18Z) - Learning Human-like Representations to Enable Learning Human Values [12.628307026004656]
人間とAIエージェントの表現的アライメントは価値アライメントを促進すると我々は主張する。
価値アライメントの一側面として倫理を重視し,さまざまな手法を用いてMLエージェントを訓練する。
論文 参考訳(メタデータ) (2023-12-21T18:31:33Z) - AI Alignment: A Comprehensive Survey [71.14382422032104]
AIアライメントは、AIシステムが人間の意図や価値観に沿って振る舞うようにすることを目的としている。
AIアライメントの重要な目的として、ロバストネス、解釈可能性、制御可能性、倫理という4つの原則を特定します。
我々は、現在のアライメント研究を、前方アライメントと後方アライメントの2つの重要なコンポーネントに分解する。
論文 参考訳(メタデータ) (2023-10-30T15:52:15Z) - Interpretability is in the Mind of the Beholder: A Causal Framework for
Human-interpretable Representation Learning [22.201878275784246]
説明可能なAIは、入力機能などの低レベル要素の観点から定義された説明から、データから学んだ解釈可能な概念でエンコードされた説明へとシフトしている。
しかし、そのような概念を確実に取得する方法は、基本的には不明確である。
ポストホックな説明器と概念に基づくニューラルネットワークの両方に適した解釈可能な表現を得るための数学的枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-14T14:26:20Z) - Value Kaleidoscope: Engaging AI with Pluralistic Human Values, Rights,
and Duties [70.20460442039375]
価値多元性とは、複数の正しい値が互いに緊張して保持されるという考え方である。
統計的学習者として、AIシステムはデフォルトで平均に適合する。
ValuePrismは、218kの値、権利、義務の大規模なデータセットで、31kの人間が記述した状況に関連付けられています。
論文 参考訳(メタデータ) (2023-09-02T01:24:59Z) - ConceptBed: Evaluating Concept Learning Abilities of Text-to-Image
Diffusion Models [79.10890337599166]
本研究では,284のユニークな視覚概念と33Kの合成テキストプロンプトからなる大規模データセットであるConceptBedを紹介する。
我々は、対象、属性、スタイルのいずれかである視覚概念を評価し、また、構成性の4つの次元(計数、属性、関係、行動)を評価する。
私たちの結果は、概念を学ぶことと、既存のアプローチが克服に苦労する構成性を維持することのトレードオフを示しています。
論文 参考訳(メタデータ) (2023-06-07T18:00:38Z) - Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。
本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文 参考訳(メタデータ) (2023-05-26T02:34:20Z) - A computational framework of human values for ethical AI [3.5027291542274357]
価値は倫理的AIを設計する手段を提供する。
値の形式的、計算的な定義はまだ提案されていない。
我々はこれを、社会科学に根ざした形式的な概念的枠組みを通じて解決する。
論文 参考訳(メタデータ) (2023-05-04T11:35:41Z) - Value alignment: a formal approach [2.8348950186890467]
自律型AIシステムを管理するべき原則。
まず、嗜好や価値集約を計算する方法を通じて、値を表現するための形式モデルを提供する。
値アライメントは、あるノルムに対して、それが将来の世界の状態の嗜好をもたらす増減を通じて、与えられた値に対して定義され、計算される。
論文 参考訳(メタデータ) (2021-10-18T12:40:04Z) - Formalizing Trust in Artificial Intelligence: Prerequisites, Causes and
Goals of Human Trust in AI [55.4046755826066]
我々は、社会学の対人信頼(すなわち、人間の信頼)に着想を得た信頼のモデルについて議論する。
ユーザとAIの間の信頼は、暗黙的あるいは明示的な契約が保持する信頼である。
我々は、信頼できるAIの設計方法、信頼が浮かび上がったかどうか、保証されているかどうかを評価する方法について論じる。
論文 参考訳(メタデータ) (2020-10-15T03:07:23Z) - Aligning AI With Shared Human Values [85.2824609130584]
私たちは、正義、幸福、義務、美徳、常識道徳の概念にまたがる新しいベンチマークであるETHICSデータセットを紹介します。
現在の言語モデルは、基本的な人間の倫理的判断を予測できる有望だが不完全な能力を持っている。
私たちの研究は、今日の機械倫理の進歩を示しており、人間の価値観に合わせたAIへの足掛かりを提供する。
論文 参考訳(メタデータ) (2020-08-05T17:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。