論文の概要: We Urgently Need Intrinsically Kind Machines
- arxiv url: http://arxiv.org/abs/2411.04126v1
- Date: Mon, 21 Oct 2024 21:40:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 12:30:58.663442
- Title: We Urgently Need Intrinsically Kind Machines
- Title(参考訳): 生まれつきの機械が本当に必要だった
- Authors: Joshua T. S. Hewson,
- Abstract要約: 優しさに対する本質的な動機は、これらのモデルが人間的価値と本質的に一致していることを保証するために不可欠である、と我々は主張する。
本手法では,会話をシミュレートすることで,基礎モデルに優しさを埋め込むためのフレームワークとアルゴリズムを導入する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Artificial Intelligence systems are rapidly evolving, integrating extrinsic and intrinsic motivations. While these frameworks offer benefits, they risk misalignment at the algorithmic level while appearing superficially aligned with human values. In this paper, we argue that an intrinsic motivation for kindness is crucial for making sure these models are intrinsically aligned with human values. We argue that kindness, defined as a form of altruism motivated to maximize the reward of others, can counteract any intrinsic motivations that might lead the model to prioritize itself over human well-being. Our approach introduces a framework and algorithm for embedding kindness into foundation models by simulating conversations. Limitations and future research directions for scalable implementation are discussed.
- Abstract(参考訳): 人工知能システムは急速に進化し、外生と内生のモチベーションを統合している。
これらのフレームワークは利点を提供するが、人間の価値と表向きに一致しているように見える一方で、アルゴリズムレベルでのミスアライメントを危険にさらす。
本稿では、これらのモデルが人的価値と本質的に一致していることを保証するために、本質的な優しさへの動機付けが重要であると論じる。
我々は、他者の報酬を最大化するために動機付けられた利他主義の形式として定義される優しさは、モデルが人間の幸福よりも自分自身を優先するであろう本質的なモチベーションに反する可能性があると論じる。
本手法では,会話をシミュレートすることで,基礎モデルに優しさを埋め込むためのフレームワークとアルゴリズムを導入する。
スケーラブルな実装のための限界と今後の研究方向性について論じる。
関連論文リスト
- Combining Theory of Mind and Kindness for Self-Supervised Human-AI Alignment [0.0]
現在のAIモデルは、安全よりもタスク最適化を優先しており、意図しない害のリスクにつながっている。
本稿では,これらの諸問題に対処し,競合する目標の整合化を支援することを目的とした,人間に触発された新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-21T22:04:44Z) - Position Paper: Agent AI Towards a Holistic Intelligence [53.35971598180146]
エージェントAI - 大きな基盤モデルをエージェントアクションに統合する具体的システム。
本稿では,エージェント・ファウンデーション・モデル(エージェント・ファウンデーション・モデル)を提案する。
論文 参考訳(メタデータ) (2024-02-28T16:09:56Z) - Modelling Human Values for AI Reasoning [2.320648715016106]
我々は,その明示的な計算表現のために,人間の値の形式モデルを詳述する。
我々は、このモデルが、価値に対するAIベースの推論の基礎となる装置をいかに提供できるかを示す。
我々は、AIにおける人間の価値を統合し、学際的に研究するためのロードマップを提案する。
論文 参考訳(メタデータ) (2024-02-09T12:08:49Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z) - AGENT: A Benchmark for Core Psychological Reasoning [60.35621718321559]
直観心理学は、観察可能な行動を駆動する隠された精神変数を推論する能力です。
他のエージェントを推論する機械エージェントに対する近年の関心にもかかわらず、そのようなエージェントが人間の推論を駆動するコア心理学の原則を学ぶか保持するかは明らかではない。
本稿では,プロシージャが生成する3dアニメーション,エージェントを4つのシナリオで構成したベンチマークを提案する。
論文 参考訳(メタデータ) (2021-02-24T14:58:23Z) - Aligning AI With Shared Human Values [85.2824609130584]
私たちは、正義、幸福、義務、美徳、常識道徳の概念にまたがる新しいベンチマークであるETHICSデータセットを紹介します。
現在の言語モデルは、基本的な人間の倫理的判断を予測できる有望だが不完全な能力を持っている。
私たちの研究は、今日の機械倫理の進歩を示しており、人間の価値観に合わせたAIへの足掛かりを提供する。
論文 参考訳(メタデータ) (2020-08-05T17:59:16Z) - Modelos din\^amicos aplicados \`a aprendizagem de valores em
intelig\^encia artificial [0.0]
この地域の数人の研究者が、人間と環境の保存のための堅牢で有益な、安全なAIの概念を開発した。
人工知能エージェントが人間の価値観に合わせた価値を持っていることは、最も重要である。
おそらくこの難しさは、認知的手法を使って価値を表現するという問題に対処する方法から来ています。
論文 参考訳(メタデータ) (2020-07-30T00:56:11Z) - Machine Common Sense [77.34726150561087]
機械の常識は、人工知能(AI)において広範で潜在的に無拘束な問題のままである
本稿では、対人インタラクションのようなドメインに焦点を当てたコモンセンス推論のモデル化の側面について論じる。
論文 参考訳(メタデータ) (2020-06-15T13:59:47Z) - Dynamic Cognition Applied to Value Learning in Artificial Intelligence [0.0]
この分野の数人の研究者が、堅牢で有益で安全な人工知能の概念を開発しようとしている。
人工知能エージェントが人間の価値観に合わせた価値を持っていることは、最も重要である。
この問題に対する可能なアプローチは、SEDのような理論モデルを使用することである。
論文 参考訳(メタデータ) (2020-05-12T03:58:52Z) - Intrinsic Motivation for Encouraging Synergistic Behavior [55.10275467562764]
スパース・リワード・シナジスティック・タスクにおける強化学習の探索バイアスとしての本質的モチベーションの役割について検討した。
私たちのキーとなる考え方は、シナジスティックなタスクにおける本質的なモチベーションのための優れた指針は、エージェントが自分自身で行動している場合、達成できない方法で世界に影響を与える行動を取ることである。
論文 参考訳(メタデータ) (2020-02-12T19:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。