論文の概要: Concept Alignment as a Prerequisite for Value Alignment
- arxiv url: http://arxiv.org/abs/2310.20059v1
- Date: Mon, 30 Oct 2023 22:23:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 17:27:56.112908
- Title: Concept Alignment as a Prerequisite for Value Alignment
- Title(参考訳): 価値アライメントの前提条件としての概念アライメント
- Authors: Sunayana Rane, Mark Ho, Ilia Sucholutsky, Thomas L. Griffiths
- Abstract要約: 価値アライメントは、人々と安全かつ確実に対話できるAIシステムを構築するために不可欠である。
概念のアライメントが体系的な価値のアライメントにどのように結びつくかを示します。
我々は、人の概念や価値観を共同で推論することで、このような障害モードを最小化するアプローチについて説明する。
- 参考スコア(独自算出の注目度): 11.236150405125754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Value alignment is essential for building AI systems that can safely and
reliably interact with people. However, what a person values -- and is even
capable of valuing -- depends on the concepts that they are currently using to
understand and evaluate what happens in the world. The dependence of values on
concepts means that concept alignment is a prerequisite for value alignment --
agents need to align their representation of a situation with that of humans in
order to successfully align their values. Here, we formally analyze the concept
alignment problem in the inverse reinforcement learning setting, show how
neglecting concept alignment can lead to systematic value mis-alignment, and
describe an approach that helps minimize such failure modes by jointly
reasoning about a person's concepts and values. Additionally, we report
experimental results with human participants showing that humans reason about
the concepts used by an agent when acting intentionally, in line with our joint
reasoning model.
- Abstract(参考訳): 価値アライメントは、人々と安全かつ確実に対話できるAIシステムを構築するために不可欠である。
しかし、ある人が-そしてその価値を評価できることは、現在世界中で何が起こっているのかを理解し、評価するために使われている概念に依存する。
概念への価値の依存は、概念のアライメントが価値アライメントの前提条件であることを意味します。
本稿では,逆強化学習環境における概念アライメント問題を形式的に解析し,概念アライメントの無視が系統的価値のミスアラインメントにつながることを示すとともに,その概念と価値を共同で推論することで,障害モードを最小化する手法について述べる。
また,人間の被験者による実験結果から,エージェントが意図的に行動する際に使用する概念を,共同推論モデルに則って判断することを示した。
関連論文リスト
- On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [49.60774626839712]
マルチモーダル生成モデルは 彼らの公正さ、信頼性、そして誤用の可能性について 批判的な議論を呼んだ
組込み空間における摂動に対する応答を通じてモデルの信頼性を評価するための評価フレームワークを提案する。
本手法は, 信頼できない, バイアス注入されたモデルを検出し, バイアス前駆体の検索を行うための基礎となる。
論文 参考訳(メタデータ) (2024-11-21T09:46:55Z) - Democratizing Reward Design for Personal and Representative Value-Alignment [10.1630183955549]
本稿では,対話型対話アライメント(Interactive-Reflective Dialogue Alignment)について紹介する。
本システムは,言語モデルに基づく嗜好誘導を通じて個々の価値定義を学習し,パーソナライズされた報酬モデルを構築する。
本研究は, 価値整合行動の多様な定義を示し, システムによって各人の独自の理解を正確に捉えることができることを示す。
論文 参考訳(メタデータ) (2024-10-29T16:37:01Z) - ValueCompass: A Framework of Fundamental Values for Human-AI Alignment [15.35489011078817]
本稿では,心理学的理論と体系的レビューに基づく基本的価値の枠組みであるバリューを紹介する。
本研究では,人間と言語モデル(LM)の価値アライメントを測定するために,実世界の4つのヴィグネットに価値を適用した。
以下に示すのは、人間とLMの危険な相違を明らかにすることであり、例えば、LMは人間によってほとんど意見が一致しない「自己のゴール」のような価値観と一致している。
論文 参考訳(メタデータ) (2024-09-15T02:13:03Z) - Improving Intervention Efficacy via Concept Realignment in Concept Bottleneck Models [57.86303579812877]
概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、人間の理解可能な概念に基づいて、解釈可能なモデル決定を可能にする画像分類である。
既存のアプローチは、強いパフォーマンスを達成するために、画像ごとに多数の人間の介入を必要とすることが多い。
本稿では,概念関係を利用した学習型概念認識介入モジュールについて紹介する。
論文 参考訳(メタデータ) (2024-05-02T17:59:01Z) - InfoCon: Concept Discovery with Generative and Discriminative Informativeness [7.160037417413006]
我々は、様々なロボットタスクに適応し、再組み立て可能な操作概念の自己監督的な発見に焦点を当てる。
我々は、操作の概念を生成的かつ差別的な目標としてモデル化し、それらを意味のあるサブトラジェクトリに自律的にリンクできるメトリクスを導出する。
論文 参考訳(メタデータ) (2024-03-14T14:14:04Z) - Concept Alignment [10.285482205152729]
我々は、私たちが価値を整合させる前に、AIシステムと人間が世界を理解するために使用する概念を整合させることが不可欠であると主張する。
哲学、認知科学、ディープラーニングのアイデアを統合し、概念の整合性の必要性を説明します。
論文 参考訳(メタデータ) (2024-01-09T23:32:18Z) - Interpretability is in the Mind of the Beholder: A Causal Framework for
Human-interpretable Representation Learning [22.201878275784246]
説明可能なAIは、入力機能などの低レベル要素の観点から定義された説明から、データから学んだ解釈可能な概念でエンコードされた説明へとシフトしている。
しかし、そのような概念を確実に取得する方法は、基本的には不明確である。
ポストホックな説明器と概念に基づくニューラルネットワークの両方に適した解釈可能な表現を得るための数学的枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-14T14:26:20Z) - Value Kaleidoscope: Engaging AI with Pluralistic Human Values, Rights, and Duties [68.66719970507273]
価値多元性とは、複数の正しい値が互いに緊張して保持されるという考え方である。
統計的学習者として、AIシステムはデフォルトで平均に適合する。
ValuePrismは、218kの値、権利、義務の大規模なデータセットで、31kの人間が記述した状況に関連付けられています。
論文 参考訳(メタデータ) (2023-09-02T01:24:59Z) - ConceptBed: Evaluating Concept Learning Abilities of Text-to-Image
Diffusion Models [79.10890337599166]
本研究では,284のユニークな視覚概念と33Kの合成テキストプロンプトからなる大規模データセットであるConceptBedを紹介する。
我々は、対象、属性、スタイルのいずれかである視覚概念を評価し、また、構成性の4つの次元(計数、属性、関係、行動)を評価する。
私たちの結果は、概念を学ぶことと、既存のアプローチが克服に苦労する構成性を維持することのトレードオフを示しています。
論文 参考訳(メタデータ) (2023-06-07T18:00:38Z) - Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。
本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文 参考訳(メタデータ) (2023-05-26T02:34:20Z) - Aligning AI With Shared Human Values [85.2824609130584]
私たちは、正義、幸福、義務、美徳、常識道徳の概念にまたがる新しいベンチマークであるETHICSデータセットを紹介します。
現在の言語モデルは、基本的な人間の倫理的判断を予測できる有望だが不完全な能力を持っている。
私たちの研究は、今日の機械倫理の進歩を示しており、人間の価値観に合わせたAIへの足掛かりを提供する。
論文 参考訳(メタデータ) (2020-08-05T17:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。