論文の概要: Learning Human-like Representations to Enable Learning Human Values
- arxiv url: http://arxiv.org/abs/2312.14106v1
- Date: Thu, 21 Dec 2023 18:31:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 13:41:22.297249
- Title: Learning Human-like Representations to Enable Learning Human Values
- Title(参考訳): 人的価値の学習を可能にする人的表現の学習
- Authors: Andrea Wynn, Ilia Sucholutsky, Thomas L. Griffiths
- Abstract要約: AIシステムに世界の人間的な表現を学習させるには、多くの既知の利点がある。
本稿では,機械学習モデル(ML)と人間とのこのような表現的アライメントが,価値アライメントの必要条件であることを示す。
- 参考スコア(独自算出の注目度): 12.628307026004656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How can we build AI systems that are aligned with human values and objectives
in order to avoid causing harm or violating societal standards for acceptable
behavior? Making AI systems learn human-like representations of the world has
many known benefits, including improving generalization, robustness to domain
shifts, and few-shot learning performance, among others. We propose that this
kind of representational alignment between machine learning (ML) models and
humans is also a necessary condition for value alignment, where ML systems
conform to human values and societal norms. We focus on ethics as one aspect of
value alignment and train multiple ML agents (support vector regression and
kernel regression) in a multi-armed bandit setting, where rewards are sampled
from a distribution that reflects the morality of the chosen action. We then
study the relationship between each agent's degree of representational
alignment with humans and their performance when learning to take the most
ethical actions.
- Abstract(参考訳): 許容可能な行動のための社会標準を害したり違反したりするのを避けるために、人間の価値観や目的に合わせたAIシステムをどのように構築すればよいのか?
AIシステムに世界の人間的な表現を学習させるには、一般化の改善、ドメインシフトに対する堅牢性、数ショットの学習パフォーマンスなど、多くの既知のメリットがある。
機械学習モデル(ML)と人間とのこのような表現的アライメントは、人間の価値観や社会的規範に適合するMLシステムにおいて、価値アライメントの必要条件でもある。
我々は、価値アライメントの一側面として倫理に注目し、選択された行動のモラルを反映した分布から報酬をサンプリングする多武装バンディット環境で複数のMLエージェント(支持ベクトル回帰とカーネル回帰)を訓練する。
次に,人間に対する各エージェントの表象的アライメントの程度と,最も倫理的な行動をとるための学習時のパフォーマンスとの関係について検討した。
関連論文リスト
- ValueCompass: A Framework of Fundamental Values for Human-AI Alignment [15.35489011078817]
本稿では,心理学的理論と体系的レビューに基づく基本的価値の枠組みであるバリューを紹介する。
本研究では,人間と言語モデル(LM)の価値アライメントを測定するために,実世界の4つのヴィグネットに価値を適用した。
以下に示すのは、人間とLMの危険な相違を明らかにすることであり、例えば、LMは人間によってほとんど意見が一致しない「自己のゴール」のような価値観と一致している。
論文 参考訳(メタデータ) (2024-09-15T02:13:03Z) - Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions [101.67121669727354]
近年のAIの進歩は、AIシステムを意図された目標、倫理的原則、個人とグループの価値に向けて導くことの重要性を強調している。
人間のAIアライメントの明確な定義とスコープの欠如は、このアライメントを達成するための研究領域間の共同作業を妨げる、大きな障害となる。
我々は、2019年から2024年1月までに400以上の論文を体系的にレビューし、HCI(Human-Computer Interaction)、自然言語処理(NLP)、機械学習(ML)といった複数の分野にまたがって紹介する。
論文 参考訳(メタデータ) (2024-06-13T16:03:25Z) - Modelling Human Values for AI Reasoning [2.320648715016106]
我々は,その明示的な計算表現のために,人間の値の形式モデルを詳述する。
我々は、このモデルが、価値に対するAIベースの推論の基礎となる装置をいかに提供できるかを示す。
我々は、AIにおける人間の価値を統合し、学際的に研究するためのロードマップを提案する。
論文 参考訳(メタデータ) (2024-02-09T12:08:49Z) - Culturally-Attuned Moral Machines: Implicit Learning of Human Value
Systems by AI through Inverse Reinforcement Learning [11.948092546676687]
AIの価値体系は文化的に直感的であるべきだと我々は主張する。
AIシステムは、人間の観察とインタラクションからこのようなコードを取得するのか、まだ未解決のままだ。
本研究では,ある文化集団の平均行動から学習したAIエージェントが,その集団の行動に反映した利他的特性を得ることができることを示す。
論文 参考訳(メタデータ) (2023-12-29T05:39:10Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Value Kaleidoscope: Engaging AI with Pluralistic Human Values, Rights, and Duties [68.66719970507273]
価値多元性とは、複数の正しい値が互いに緊張して保持されるという考え方である。
統計的学習者として、AIシステムはデフォルトで平均に適合する。
ValuePrismは、218kの値、権利、義務の大規模なデータセットで、31kの人間が記述した状況に関連付けられています。
論文 参考訳(メタデータ) (2023-09-02T01:24:59Z) - Bongard-LOGO: A New Benchmark for Human-Level Concept Learning and
Reasoning [78.13740873213223]
ボナード問題(BP)は、インテリジェントシステムにおける視覚認知へのインスピレーションとして導入された。
我々は人間レベルの概念学習と推論のための新しいベンチマークBongard-LOGOを提案する。
論文 参考訳(メタデータ) (2020-10-02T03:19:46Z) - Aligning AI With Shared Human Values [85.2824609130584]
私たちは、正義、幸福、義務、美徳、常識道徳の概念にまたがる新しいベンチマークであるETHICSデータセットを紹介します。
現在の言語モデルは、基本的な人間の倫理的判断を予測できる有望だが不完全な能力を持っている。
私たちの研究は、今日の機械倫理の進歩を示しており、人間の価値観に合わせたAIへの足掛かりを提供する。
論文 参考訳(メタデータ) (2020-08-05T17:59:16Z) - Joint Inference of States, Robot Knowledge, and Human (False-)Beliefs [90.20235972293801]
本稿では,人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)の認知能力が,ロボットとの相互作用にどのように影響するかを理解するために,対象状態,ロボット知識,人間(時間的)の認知能力の表現にグラフィカルモデルを採用することを提案する。
推論アルゴリズムは、複数のビューにまたがる全てのロボットから個別のpgを融合し、単一のビューから発生したエラーを克服するより効果的な推論能力を得る。
論文 参考訳(メタデータ) (2020-04-25T23:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。