論文の概要: Machine Theory of Mind and the Structure of Human Values
- arxiv url: http://arxiv.org/abs/2505.20342v1
- Date: Sat, 24 May 2025 19:18:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.189275
- Title: Machine Theory of Mind and the Structure of Human Values
- Title(参考訳): 心の機械理論と人的価値の構造
- Authors: Paul de Font-Reaulx,
- Abstract要約: 人間の価値は生成的合理的な構造を持ち、それによって価値一般化の問題を解決することができると私は主張する。
生成的価値から価値への推論の開発は、スケーラブルなマインド理論を実現する上で重要な要素である、と私は結論付けます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Value learning is a crucial aspect of safe and ethical AI. This is primarily pursued by methods inferring human values from behaviour. However, humans care about much more than we are able to demonstrate through our actions. Consequently, an AI must predict the rest of our seemingly complex values from a limited sample. I call this the value generalization problem. In this paper, I argue that human values have a generative rational structure and that this allows us to solve the value generalization problem. In particular, we can use Bayesian Theory of Mind models to infer human values not only from behaviour, but also from other values. This has been obscured by the widespread use of simple utility functions to represent human values. I conclude that developing generative value-to-value inference is a crucial component of achieving a scalable machine theory of mind.
- Abstract(参考訳): 価値学習は、安全で倫理的なAIの重要な側面である。
これは主に人間の価値観を行動から推定する手法によって追求される。
しかしながら、人間は私たちが行動を通して示せる以上のことを気にしています。
その結果、AIは限られたサンプルから、一見複雑な値の残りの部分を予測しなければなりません。
私はこれを値一般化問題と呼ぶ。
本稿では,人間の価値は生成的合理的な構造を持ち,それによって価値一般化問題を解くことができると論じる。
特に、ベイズ的マインド理論を用いて、人間の価値観を行動だけでなく、他の価値観からも推測することができる。
これは、人間の価値を表現するために単純なユーティリティ関数が広く使われることで明らかになっている。
生成的価値から価値への推論の開発は、スケーラブルなマインド理論を実現する上で重要な要素である、と私は結論付けます。
関連論文リスト
- Values in the Wild: Discovering and Analyzing Values in Real-World Language Model Interactions [16.952352685459932]
我々は、経験的に3,307のAI値を発見・分類し、それらがどのように異なるかを研究する。
私たちの研究は、AIシステムにおける価値のより基礎的な評価と設計のための基盤を作りました。
論文 参考訳(メタデータ) (2025-04-21T17:13:16Z) - Modelling Human Values for AI Reasoning [2.320648715016106]
我々は,その明示的な計算表現のために,人間の値の形式モデルを詳述する。
我々は、このモデルが、価値に対するAIベースの推論の基礎となる装置をいかに提供できるかを示す。
我々は、AIにおける人間の価値を統合し、学際的に研究するためのロードマップを提案する。
論文 参考訳(メタデータ) (2024-02-09T12:08:49Z) - Learning Human-like Representations to Enable Learning Human Values [11.236150405125754]
我々は,人間とAIエージェントの表現的アライメントが人的価値の学習に与える影響を考察する。
このような表現的アライメントは、パーソナライゼーションの文脈において、人間の価値を安全に学習し、探索する上で有効であることを示す。
論文 参考訳(メタデータ) (2023-12-21T18:31:33Z) - Value Kaleidoscope: Engaging AI with Pluralistic Human Values, Rights, and Duties [68.66719970507273]
価値多元性とは、複数の正しい値が互いに緊張して保持されるという考え方である。
統計的学習者として、AIシステムはデフォルトで平均に適合する。
ValuePrismは、218kの値、権利、義務の大規模なデータセットで、31kの人間が記述した状況に関連付けられています。
論文 参考訳(メタデータ) (2023-09-02T01:24:59Z) - Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。
本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文 参考訳(メタデータ) (2023-05-26T02:34:20Z) - A computational framework of human values for ethical AI [3.5027291542274357]
価値は倫理的AIを設計する手段を提供する。
値の形式的、計算的な定義はまだ提案されていない。
我々はこれを、社会科学に根ざした形式的な概念的枠組みを通じて解決する。
論文 参考訳(メタデータ) (2023-05-04T11:35:41Z) - The dangers in algorithms learning humans' values and irrationalities [4.606850300668693]
人間の行動に関する訓練を受けたAIシステムは、人間の不合理性を人間の価値と誤分類する。
ヒューマンポリシーを知ることで、AIは汎用的により強力なものになる。
人間のバイアスを学習し、行動から価値を引き出すよりも、AIが人間の価値を直接学習する方がよい。
論文 参考訳(メタデータ) (2022-02-28T17:41:39Z) - Towards Abstract Relational Learning in Human Robot Interaction [73.67226556788498]
人間は環境における実体を豊かに表現する。
ロボットが人間とうまく対話する必要がある場合、同様の方法で実体、属性、一般化を表現する必要がある。
本研究では,人間とロボットの相互作用を通じて,これらの表現をどのように獲得するかという課題に対処する。
論文 参考訳(メタデータ) (2020-11-20T12:06:46Z) - Aligning AI With Shared Human Values [85.2824609130584]
私たちは、正義、幸福、義務、美徳、常識道徳の概念にまたがる新しいベンチマークであるETHICSデータセットを紹介します。
現在の言語モデルは、基本的な人間の倫理的判断を予測できる有望だが不完全な能力を持っている。
私たちの研究は、今日の機械倫理の進歩を示しており、人間の価値観に合わせたAIへの足掛かりを提供する。
論文 参考訳(メタデータ) (2020-08-05T17:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。