論文の概要: Autonomous Alignment with Human Value on Altruism through Considerate Self-imagination and Theory of Mind
- arxiv url: http://arxiv.org/abs/2501.00320v2
- Date: Tue, 07 Jan 2025 09:25:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 15:47:38.608337
- Title: Autonomous Alignment with Human Value on Altruism through Considerate Self-imagination and Theory of Mind
- Title(参考訳): 自己想像と心の理論によるアルトリズムの人的価値を考慮した自律的アライメント
- Authors: Haibo Tong, Enmeng Lu, Yinqian Sun, Zhengqiang Han, Chao Liu, Feifei Zhao, Yi Zeng,
- Abstract要約: 人間社会におけるアルトゥル的行動は、心の理論(ToM)として知られる他者を共感する人間の能力に由来する。
我々は、自己想像とToM能力を考慮に入れたエージェントを、暗黙の本質的なモチベーションを通じて、人間の利他主義的価値観と自律的に一致させることを約束している。
- 参考スコア(独自算出の注目度): 7.19351244815121
- License:
- Abstract: With the widespread application of Artificial Intelligence (AI) in human society, enabling AI to autonomously align with human values has become a pressing issue to ensure its sustainable development and benefit to humanity. One of the most important aspects of aligning with human values is the necessity for agents to autonomously make altruistic, safe, and ethical decisions, considering and caring for human well-being. Current AI extremely pursues absolute superiority in certain tasks, remaining indifferent to the surrounding environment and other agents, which has led to numerous safety risks. Altruistic behavior in human society originates from humans' capacity for empathizing others, known as Theory of Mind (ToM), combined with predictive imaginative interactions before taking action to produce thoughtful and altruistic behaviors. Inspired by this, we are committed to endow agents with considerate self-imagination and ToM capabilities, driving them through implicit intrinsic motivations to autonomously align with human altruistic values. By integrating ToM within the imaginative space, agents keep an eye on the well-being of other agents in real time, proactively anticipate potential risks to themselves and others, and make thoughtful altruistic decisions that balance negative effects on the environment. The ancient Chinese story of Sima Guang Smashes the Vat illustrates the moral behavior of the young Sima Guang smashed a vat to save a child who had accidentally fallen into it, which is an excellent reference scenario for this paper. We design an experimental scenario similar to Sima Guang Smashes the Vat and its variants with different complexities, which reflects the trade-offs and comprehensive considerations between self-goals, altruistic rescue, and avoiding negative side effects.
- Abstract(参考訳): 人工知能(AI)が人間の社会に広く応用されていることにより、AIが人間の価値と自律的に一致できるようにすることは、その持続可能な開発と人類への利益を確実にするために迫られる問題となっている。
人間の価値と整合する上で最も重要な側面の1つは、エージェントが利他的、安全、倫理的な決定を自律的に行う必要があることである。
現在のAIは特定のタスクにおいて絶対的な優位性を追求しており、周囲の環境や他のエージェントには無関心であり、多くの安全リスクをもたらしている。
人間の社会におけるアルトゥル的行動は、心の理論(ToM)として知られる人間の他者への共感能力に起因し、思考的・利他的行動を生み出すために行動を起こす前に予測的想像的相互作用と組み合わさったものである。
これに触発されて私たちは,自己想像とToM能力を持つエージェントを育成し,暗黙の本質的なモチベーションを通じて,人間の利他的価値観と自律的に一致させることを約束します。
想像空間にToMを統合することで、エージェントは他のエージェントの幸福をリアルタイムで監視し、自分自身や他のエージェントに対する潜在的なリスクを積極的に予測し、環境に悪影響を及ぼすような思慮深い利他的決定を行う。
古代中国のシマ・グアン・スマシーズ・ザ・ヴァット(英語版)の物語では、若いシマ・グアン(英語版)が誤って落ち込んだ子供を救うためにバットを壊したという道徳的な振る舞いが描かれており、この論文の優れた参考シナリオである。
我々は, 自己ゴール間のトレードオフや包括的考察, 利他的救済, 負の副作用の回避を反映した, 異なる複雑さを持つシマ・グアン・スマッシュやその変種に類似した実験シナリオを設計する。
関連論文リスト
- Building Altruistic and Moral AI Agent with Brain-inspired Affective Empathy Mechanisms [7.3650155128839225]
本稿では,人間のような情緒的共感機構を通じて,知的エージェントを自律的に駆動し,道徳的行動を取得することを目的とする。
道徳的実用主義の原理に基づいて、本質的な共感と外生的な自己タスク目標を統合する道徳的報酬関数を設計する。
論文 参考訳(メタデータ) (2024-10-29T09:19:27Z) - Combining Theory of Mind and Kindness for Self-Supervised Human-AI Alignment [0.0]
現在のAIモデルは、安全よりもタスク最適化を優先しており、意図しない害のリスクにつながっている。
本稿では,これらの諸問題に対処し,競合する目標の整合化を支援することを目的とした,人間に触発された新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-21T22:04:44Z) - FairMindSim: Alignment of Behavior, Emotion, and Belief in Humans and LLM Agents Amid Ethical Dilemmas [23.26678104324838]
FairMindSimを導入し、不公平なシナリオを通じて道徳的ジレンマをシミュレートした。
我々はLLMエージェントを用いて人間の行動をシミュレートし,様々な段階のアライメントを確保した。
以上の結果から,GPT-4oは社会的正義の感覚が強く,人間はより豊かな感情を呈することが明らかとなった。
論文 参考訳(メタデータ) (2024-10-14T11:39:05Z) - Agent Assessment of Others Through the Lens of Self [1.223779595809275]
この論文は、自律エージェントの自己の内省能力の質は、他のエージェントの質の高い人間的な理解を反映するのに不可欠であると主張している。
結局のところ、ビジョンは単に計算する機械ではなく、内省し、共感し、理解する実体である。
論文 参考訳(メタデータ) (2023-12-18T17:15:04Z) - The Promise and Peril of Artificial Intelligence -- Violet Teaming
Offers a Balanced Path Forward [56.16884466478886]
本稿では、不透明で制御不能なAIシステムにおける新興問題についてレビューする。
信頼性と責任のあるAIを開発するために、紫外チームと呼ばれる統合フレームワークを提案する。
それは、設計によって積極的にリスクを管理するためのAI安全研究から生まれた。
論文 参考訳(メタデータ) (2023-08-28T02:10:38Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z) - Aligning to Social Norms and Values in Interactive Narratives [89.82264844526333]
我々は、インタラクティブな物語やテキストベースのゲームにおいて、社会的に有益な規範や価値観に沿って行動するエージェントを作成することに注力する。
我々は、特別な訓練を受けた言語モデルに存在する社会的コモンセンス知識を用いて、社会的に有益な値に整合した行動にのみ、その行動空間を文脈的に制限するGAALADエージェントを紹介した。
論文 参考訳(メタデータ) (2022-05-04T09:54:33Z) - Trustworthy AI: A Computational Perspective [54.80482955088197]
我々は,信頼に値するAIを実現する上で最も重要な6つの要素,(i)安全とロバスト性,(ii)非差別と公正,(iii)説明可能性,(iv)プライバシー,(v)説明可能性と監査性,(vi)環境ウェルビーイングに焦点をあてる。
各次元について、分類学に基づく最近の関連技術について概観し、実世界のシステムにおけるそれらの応用を概説する。
論文 参考訳(メタデータ) (2021-07-12T14:21:46Z) - AGENT: A Benchmark for Core Psychological Reasoning [60.35621718321559]
直観心理学は、観察可能な行動を駆動する隠された精神変数を推論する能力です。
他のエージェントを推論する機械エージェントに対する近年の関心にもかかわらず、そのようなエージェントが人間の推論を駆動するコア心理学の原則を学ぶか保持するかは明らかではない。
本稿では,プロシージャが生成する3dアニメーション,エージェントを4つのシナリオで構成したベンチマークを提案する。
論文 参考訳(メタデータ) (2021-02-24T14:58:23Z) - Human Perception of Intrinsically Motivated Autonomy in Human-Robot
Interaction [2.485182034310304]
人間に生息する環境でロボットを使用する場合の課題は、人間同士の相互作用によって引き起こされる摂動に対して、魅力的だが堅牢な振る舞いを設計することである。
我々のアイデアは、ロボットに本質的なモチベーション(IM)を持たせることで、新しい状況に対処し、人間以外の真の社会的存在として現れるようにすることです。
本稿では、自律的に生成された振る舞いを相互に比較できる「ロボット学者」による研究設計について述べる。
論文 参考訳(メタデータ) (2020-02-14T09:49:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。