論文の概要: Learning Human-like Representations to Enable Learning Human Values
- arxiv url: http://arxiv.org/abs/2312.14106v2
- Date: Wed, 13 Mar 2024 01:37:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 17:58:38.488947
- Title: Learning Human-like Representations to Enable Learning Human Values
- Title(参考訳): 人間のような表現を学習し、人間の価値を学べる
- Authors: Andrea Wynn, Ilia Sucholutsky, Thomas L. Griffiths
- Abstract要約: 人間とAIエージェントの表現的アライメントは価値アライメントを促進すると我々は主張する。
価値アライメントの一側面として倫理を重視し,さまざまな手法を用いてMLエージェントを訓練する。
- 参考スコア(独自算出の注目度): 12.628307026004656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How can we build AI systems that are aligned with human values to avoid
causing harm or violating societal standards for acceptable behavior? We argue
that representational alignment between humans and AI agents facilitates value
alignment. Making AI systems learn human-like representations of the world has
many known benefits, including improving generalization, robustness to domain
shifts, and few-shot learning performance. We propose that this kind of
representational alignment between machine learning (ML) models and humans can
also support value alignment, allowing ML systems to conform to human values
and societal norms. We focus on ethics as one aspect of value alignment and
train ML agents using a variety of methods in a multi-armed bandit setting,
where rewards reflect the moral acceptability of the chosen action. We use a
synthetic experiment to demonstrate that agents' representational alignment
with the environment bounds their learning performance. We then repeat this
procedure in a realistic setting, using textual action descriptions and
similarity judgments collected from humans and a variety of language models, to
show that the results generalize and are model-agnostic when grounded in an
ethically relevant context.
- Abstract(参考訳): 許容可能な行動のための社会標準を害したり違反したりするのを避けるために、人間の価値観と整合したAIシステムをどのように構築すればよいのか?
人間とAIエージェントの表現的アライメントは価値アライメントを促進すると我々は主張する。
AIシステムに世界の人間的な表現を学習させるには、一般化の改善、ドメインシフトに対する堅牢性、数ショットの学習パフォーマンスなど、多くの既知のメリットがある。
機械学習モデル(ML)モデルと人間とのこのような表現的アライメントは、価値アライメントもサポートし、MLシステムは人間の価値観や社会的規範に適合できる。
我々は、価値アライメントの1つの側面として倫理に焦点を当て、選択された行動の道徳的受容性を反映した報酬を反映した多腕バンディット設定において、様々な手法を用いてMLエージェントを訓練する。
本研究では,エージェントの環境との表現的アライメントが学習性能に結びつくことを示すために,合成実験を用いる。
そこで本手法は,人間や多種多様な言語モデルから収集したテキスト行動記述や類似性判断を用いて,現実的な状況下で繰り返し,倫理的に関係のある文脈において,結果が一般化され,モデルに依存しないことを示す。
関連論文リスト
- ValueCompass: A Framework of Fundamental Values for Human-AI Alignment [15.35489011078817]
本稿では,心理学的理論と体系的レビューに基づく基本的価値の枠組みであるバリューを紹介する。
本研究では,人間と言語モデル(LM)の価値アライメントを測定するために,実世界の4つのヴィグネットに価値を適用した。
以下に示すのは、人間とLMの危険な相違を明らかにすることであり、例えば、LMは人間によってほとんど意見が一致しない「自己のゴール」のような価値観と一致している。
論文 参考訳(メタデータ) (2024-09-15T02:13:03Z) - Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions [101.67121669727354]
近年のAIの進歩は、AIシステムを意図された目標、倫理的原則、個人とグループの価値に向けて導くことの重要性を強調している。
人間のAIアライメントの明確な定義とスコープの欠如は、このアライメントを達成するための研究領域間の共同作業を妨げる、大きな障害となる。
我々は、2019年から2024年1月までに400以上の論文を体系的にレビューし、HCI(Human-Computer Interaction)、自然言語処理(NLP)、機械学習(ML)といった複数の分野にまたがって紹介する。
論文 参考訳(メタデータ) (2024-06-13T16:03:25Z) - Modelling Human Values for AI Reasoning [2.320648715016106]
我々は,その明示的な計算表現のために,人間の値の形式モデルを詳述する。
我々は、このモデルが、価値に対するAIベースの推論の基礎となる装置をいかに提供できるかを示す。
我々は、AIにおける人間の価値を統合し、学際的に研究するためのロードマップを提案する。
論文 参考訳(メタデータ) (2024-02-09T12:08:49Z) - Culturally-Attuned Moral Machines: Implicit Learning of Human Value
Systems by AI through Inverse Reinforcement Learning [11.948092546676687]
AIの価値体系は文化的に直感的であるべきだと我々は主張する。
AIシステムは、人間の観察とインタラクションからこのようなコードを取得するのか、まだ未解決のままだ。
本研究では,ある文化集団の平均行動から学習したAIエージェントが,その集団の行動に反映した利他的特性を得ることができることを示す。
論文 参考訳(メタデータ) (2023-12-29T05:39:10Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Value Kaleidoscope: Engaging AI with Pluralistic Human Values, Rights, and Duties [68.66719970507273]
価値多元性とは、複数の正しい値が互いに緊張して保持されるという考え方である。
統計的学習者として、AIシステムはデフォルトで平均に適合する。
ValuePrismは、218kの値、権利、義務の大規模なデータセットで、31kの人間が記述した状況に関連付けられています。
論文 参考訳(メタデータ) (2023-09-02T01:24:59Z) - Bongard-LOGO: A New Benchmark for Human-Level Concept Learning and
Reasoning [78.13740873213223]
ボナード問題(BP)は、インテリジェントシステムにおける視覚認知へのインスピレーションとして導入された。
我々は人間レベルの概念学習と推論のための新しいベンチマークBongard-LOGOを提案する。
論文 参考訳(メタデータ) (2020-10-02T03:19:46Z) - Aligning AI With Shared Human Values [85.2824609130584]
私たちは、正義、幸福、義務、美徳、常識道徳の概念にまたがる新しいベンチマークであるETHICSデータセットを紹介します。
現在の言語モデルは、基本的な人間の倫理的判断を予測できる有望だが不完全な能力を持っている。
私たちの研究は、今日の機械倫理の進歩を示しており、人間の価値観に合わせたAIへの足掛かりを提供する。
論文 参考訳(メタデータ) (2020-08-05T17:59:16Z) - Joint Inference of States, Robot Knowledge, and Human (False-)Beliefs [90.20235972293801]
本稿では,人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)の認知能力が,ロボットとの相互作用にどのように影響するかを理解するために,対象状態,ロボット知識,人間(時間的)の認知能力の表現にグラフィカルモデルを採用することを提案する。
推論アルゴリズムは、複数のビューにまたがる全てのロボットから個別のpgを融合し、単一のビューから発生したエラーを克服するより効果的な推論能力を得る。
論文 参考訳(メタデータ) (2020-04-25T23:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。