論文の概要: Learning Human-like Representations to Enable Learning Human Values
- arxiv url: http://arxiv.org/abs/2312.14106v3
- Date: Fri, 08 Nov 2024 17:33:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:52:59.982368
- Title: Learning Human-like Representations to Enable Learning Human Values
- Title(参考訳): 人間のような表現を学習し、人間の価値を学べる
- Authors: Andrea Wynn, Ilia Sucholutsky, Thomas L. Griffiths,
- Abstract要約: 我々は,人間とAIエージェントの表現的アライメントが人的価値の学習に与える影響を考察する。
このような表現的アライメントは、パーソナライゼーションの文脈において、人間の価値を安全に学習し、探索する上で有効であることを示す。
- 参考スコア(独自算出の注目度): 11.236150405125754
- License:
- Abstract: How can we build AI systems that can learn any set of individual human values both quickly and safely, avoiding causing harm or violating societal standards for acceptable behavior during the learning process? We explore the effects of representational alignment between humans and AI agents on learning human values. Making AI systems learn human-like representations of the world has many known benefits, including improving generalization, robustness to domain shifts, and few-shot learning performance. We demonstrate that this kind of representational alignment can also support safely learning and exploring human values in the context of personalization. We begin with a theoretical prediction, show that it applies to learning human morality judgments, then show that our results generalize to ten different aspects of human values -- including ethics, honesty, and fairness -- training AI agents on each set of values in a multi-armed bandit setting, where rewards reflect human value judgments over the chosen action. Using a set of textual action descriptions, we collect value judgments from humans, as well as similarity judgments from both humans and multiple language models, and demonstrate that representational alignment enables both safe exploration and improved generalization when learning human values.
- Abstract(参考訳): 学習プロセス中に許容される行動に対する社会的基準に害を及ぼすことを避けながら、迅速かつ安全に個人の価値観を学習できるAIシステムを構築するには、どうすればよいのか?
我々は,人間とAIエージェントの表現的アライメントが人的価値の学習に与える影響を考察する。
AIシステムに世界の人間的な表現を学習させるには、一般化の改善、ドメインシフトに対する堅牢性、数ショットの学習パフォーマンスなど、多くの既知のメリットがある。
我々は、このような表現的アライメントは、パーソナライゼーションの文脈において、人間の価値を安全に学習し、探索することを支援することができることを示した。
まず、人間の道徳的判断の学習に適用できることを示し、その結果が倫理、誠実さ、公正さを含む人間の価値の10つの異なる側面に一般化されることを示します。
テキスト行動記述の集合を用いて、人間の価値判断と、人間と複数の言語モデルの両方の類似性判定を収集し、表現的アライメントが人間の価値を学習する際の安全な探索と一般化の両立を可能にすることを実証する。
関連論文リスト
- ValueCompass: A Framework of Fundamental Values for Human-AI Alignment [15.35489011078817]
本稿では,心理学的理論と体系的レビューに基づく基本的価値の枠組みであるバリューを紹介する。
本研究では,人間と言語モデル(LM)の価値アライメントを測定するために,実世界の4つのヴィグネットに価値を適用した。
以下に示すのは、人間とLMの危険な相違を明らかにすることであり、例えば、LMは人間によってほとんど意見が一致しない「自己のゴール」のような価値観と一致している。
論文 参考訳(メタデータ) (2024-09-15T02:13:03Z) - Strong and weak alignment of large language models with human values [1.6590638305972631]
AI(Artificial Intelligent)システムの負の影響を最小限に抑えるには、人間の価値観に合わせる必要がある。
これは、大きな言語モデル(LLM)のようなAIシステムにおいて、人間の価値が浮かび上がるリスクを示す状況を認識するために必要である、と我々は主張する。
そこで我々は,ジョン・サールの有名な提案を拡張して,「単語遷移辞書付き中国語室」と呼ぶ新しい思考実験を提案する。
論文 参考訳(メタデータ) (2024-08-05T11:27:51Z) - A Moral Imperative: The Need for Continual Superalignment of Large Language Models [1.0499611180329806]
スーパーアライメント(Superalignment)は、超知能AIシステムが人間の価値観や目標に応じて行動することを確実にする理論フレームワークである。
本稿では,AIシステム,特に大規模言語モデル(LLM)における生涯的スーパーアライメントの実現に関わる課題について検討する。
論文 参考訳(メタデータ) (2024-03-13T05:44:50Z) - Culturally-Attuned Moral Machines: Implicit Learning of Human Value
Systems by AI through Inverse Reinforcement Learning [11.948092546676687]
AIの価値体系は文化的に直感的であるべきだと我々は主張する。
AIシステムは、人間の観察とインタラクションからこのようなコードを取得するのか、まだ未解決のままだ。
本研究では,ある文化集団の平均行動から学習したAIエージェントが,その集団の行動に反映した利他的特性を得ることができることを示す。
論文 参考訳(メタデータ) (2023-12-29T05:39:10Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Value Kaleidoscope: Engaging AI with Pluralistic Human Values, Rights, and Duties [68.66719970507273]
価値多元性とは、複数の正しい値が互いに緊張して保持されるという考え方である。
統計的学習者として、AIシステムはデフォルトで平均に適合する。
ValuePrismは、218kの値、権利、義務の大規模なデータセットで、31kの人間が記述した状況に関連付けられています。
論文 参考訳(メタデータ) (2023-09-02T01:24:59Z) - Training Socially Aligned Language Models on Simulated Social
Interactions [99.39979111807388]
AIシステムにおける社会的アライメントは、確立された社会的価値に応じてこれらのモデルが振舞うことを保証することを目的としている。
現在の言語モデル(LM)は、トレーニングコーパスを独立して厳格に複製するように訓練されている。
本研究は,シミュレートされた社会的相互作用からLMを学習することのできる,新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-05-26T14:17:36Z) - Towards Abstract Relational Learning in Human Robot Interaction [73.67226556788498]
人間は環境における実体を豊かに表現する。
ロボットが人間とうまく対話する必要がある場合、同様の方法で実体、属性、一般化を表現する必要がある。
本研究では,人間とロボットの相互作用を通じて,これらの表現をどのように獲得するかという課題に対処する。
論文 参考訳(メタデータ) (2020-11-20T12:06:46Z) - Aligning AI With Shared Human Values [85.2824609130584]
私たちは、正義、幸福、義務、美徳、常識道徳の概念にまたがる新しいベンチマークであるETHICSデータセットを紹介します。
現在の言語モデルは、基本的な人間の倫理的判断を予測できる有望だが不完全な能力を持っている。
私たちの研究は、今日の機械倫理の進歩を示しており、人間の価値観に合わせたAIへの足掛かりを提供する。
論文 参考訳(メタデータ) (2020-08-05T17:59:16Z) - Joint Inference of States, Robot Knowledge, and Human (False-)Beliefs [90.20235972293801]
本稿では,人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)の認知能力が,ロボットとの相互作用にどのように影響するかを理解するために,対象状態,ロボット知識,人間(時間的)の認知能力の表現にグラフィカルモデルを採用することを提案する。
推論アルゴリズムは、複数のビューにまたがる全てのロボットから個別のpgを融合し、単一のビューから発生したエラーを克服するより効果的な推論能力を得る。
論文 参考訳(メタデータ) (2020-04-25T23:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。