論文の概要: Value Internalization: Learning and Generalizing from Social Reward
- arxiv url: http://arxiv.org/abs/2407.14681v1
- Date: Fri, 19 Jul 2024 21:53:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 21:23:47.568079
- Title: Value Internalization: Learning and Generalizing from Social Reward
- Title(参考訳): 価値の内在化 - 社会的報酬から学び、一般化する
- Authors: Frieda Rong, Max Kleiman-Weiner,
- Abstract要約: 社会的フィードバックが内部社会的報酬(ISR)モデルを訓練する価値内在化モデルを提案する。
ISRモデルは,エージェントが非学習の社会的行為を防止し,アウト・オブ・ディストリビューションタスクの一般化を可能にする。
私たちの研究は、人間が価値を獲得し、一般化する方法を理解するための基盤を提供し、AIと人間の価値を合わせるための洞察を提供する。
- 参考スコア(独自算出の注目度): 2.1933612703101764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social rewards shape human behavior. During development, a caregiver guides a learner's behavior towards culturally aligned goals and values. How do these behaviors persist and generalize when the caregiver is no longer present, and the learner must continue autonomously? Here, we propose a model of value internalization where social feedback trains an internal social reward (ISR) model that generates internal rewards when social rewards are unavailable. Through empirical simulations, we show that an ISR model prevents agents from unlearning socialized behaviors and enables generalization in out-of-distribution tasks. We characterize the implications of incomplete internalization, akin to "reward hacking" on the ISR. Additionally, we show that our model internalizes prosocial behavior in a multi-agent environment. Our work provides a foundation for understanding how humans acquire and generalize values and offers insights for aligning AI with human values.
- Abstract(参考訳): 社会的報酬は人間の行動を形成する。
発達中、介護者は学習者の振る舞いを文化的に整合した目標と価値へと導く。
介護者がいなくなったら、これらの行動はいかにして持続し、一般化し、学習者は自律的に続けなければならないか。
本稿では、社会的フィードバックが社会的報酬を利用できない場合に内部報酬を生成する内部社会報酬モデル(ISR)を訓練する価値内在化モデルを提案する。
実証シミュレーションにより、ISRモデルによりエージェントが非学習的な社会的行為を防ぎ、アウト・オブ・ディストリビューションタスクにおける一般化を可能にすることを示す。
ISRにおける「リワードハッキング」に類似した、不完全な内部化の意義を特徴付ける。
さらに,本モデルは,マルチエージェント環境下での社会的行動の内在化を示す。
私たちの研究は、人間が価値を獲得し、一般化する方法を理解するための基盤を提供し、AIと人間の価値を合わせるための洞察を提供する。
関連論文リスト
- FairMindSim: Alignment of Behavior, Emotion, and Belief in Humans and LLM Agents Amid Ethical Dilemmas [23.26678104324838]
FairMindSimを導入し、不公平なシナリオを通じて道徳的ジレンマをシミュレートした。
我々はLLMエージェントを用いて人間の行動をシミュレートし,様々な段階のアライメントを確保した。
以上の結果から,GPT-4oは社会的正義の感覚が強く,人間はより豊かな感情を呈することが明らかとなった。
論文 参考訳(メタデータ) (2024-10-14T11:39:05Z) - Modelling Human Values for AI Reasoning [2.320648715016106]
我々は,その明示的な計算表現のために,人間の値の形式モデルを詳述する。
我々は、このモデルが、価値に対するAIベースの推論の基礎となる装置をいかに提供できるかを示す。
我々は、AIにおける人間の価値を統合し、学際的に研究するためのロードマップを提案する。
論文 参考訳(メタデータ) (2024-02-09T12:08:49Z) - Culturally-Attuned Moral Machines: Implicit Learning of Human Value
Systems by AI through Inverse Reinforcement Learning [11.948092546676687]
AIの価値体系は文化的に直感的であるべきだと我々は主張する。
AIシステムは、人間の観察とインタラクションからこのようなコードを取得するのか、まだ未解決のままだ。
本研究では,ある文化集団の平均行動から学習したAIエージェントが,その集団の行動に反映した利他的特性を得ることができることを示す。
論文 参考訳(メタデータ) (2023-12-29T05:39:10Z) - SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents [107.4138224020773]
人工エージェントと人間との複雑な社会的相互作用をシミュレートするオープンエンド環境であるSOTOPIAを提案する。
エージェントは、複雑な社会的目標を達成するために協調し、協力し、交換し、互いに競い合う。
GPT-4は,人間よりも目標達成率が著しく低く,社会的常識的推論や戦略的コミュニケーション能力の発揮に苦慮していることがわかった。
論文 参考訳(メタデータ) (2023-10-18T02:27:01Z) - Training Socially Aligned Language Models on Simulated Social
Interactions [99.39979111807388]
AIシステムにおける社会的アライメントは、確立された社会的価値に応じてこれらのモデルが振舞うことを保証することを目的としている。
現在の言語モデル(LM)は、トレーニングコーパスを独立して厳格に複製するように訓練されている。
本研究は,シミュレートされた社会的相互作用からLMを学習することのできる,新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-05-26T14:17:36Z) - Flexible social inference facilitates targeted social learning when
rewards are not observable [58.762004496858836]
グループは、個人が他人の成功から学べるときにより効果的にコーディネートする。
社会的推論能力は、このギャップを埋める助けとなり、個人が他人の基本的な知識に対する信念を更新し、観察可能な行動軌跡から成功することを示唆する。
論文 参考訳(メタデータ) (2022-12-01T21:04:03Z) - Aligning to Social Norms and Values in Interactive Narratives [89.82264844526333]
我々は、インタラクティブな物語やテキストベースのゲームにおいて、社会的に有益な規範や価値観に沿って行動するエージェントを作成することに注力する。
我々は、特別な訓練を受けた言語モデルに存在する社会的コモンセンス知識を用いて、社会的に有益な値に整合した行動にのみ、その行動空間を文脈的に制限するGAALADエージェントを紹介した。
論文 参考訳(メタデータ) (2022-05-04T09:54:33Z) - Social Chemistry 101: Learning to Reason about Social and Moral Norms [73.23298385380636]
我々は、人々の日常的な社会的規範と道徳的判断を研究するための新しい概念的形式主義である社会化学を提示する。
Social-Chem-101は大規模なコーパスで292Kのルールをカタログ化している。
モデルフレームワークであるNeural Norm Transformerは、Social-Chem-101を学習し、一般化し、これまで見つからなかった状況の推論に成功した。
論文 参考訳(メタデータ) (2020-11-01T20:16:45Z) - Emergent Social Learning via Multi-agent Reinforcement Learning [91.57176641192771]
社会学習は、人間と動物の知性の重要な構成要素である。
本稿では,独立系強化学習エージェントが,社会的学習を用いてパフォーマンスを向上させることを学べるかどうかを検討する。
論文 参考訳(メタデータ) (2020-10-01T17:54:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。