論文の概要: Aligning to Social Norms and Values in Interactive Narratives
- arxiv url: http://arxiv.org/abs/2205.01975v2
- Date: Thu, 5 May 2022 02:21:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-06 11:44:59.015629
- Title: Aligning to Social Norms and Values in Interactive Narratives
- Title(参考訳): 対話的物語における社会的規範と価値観の整合
- Authors: Prithviraj Ammanabrolu, Liwei Jiang, Maarten Sap, Hannaneh Hajishirzi,
Yejin Choi
- Abstract要約: 我々は、インタラクティブな物語やテキストベースのゲームにおいて、社会的に有益な規範や価値観に沿って行動するエージェントを作成することに注力する。
我々は、特別な訓練を受けた言語モデルに存在する社会的コモンセンス知識を用いて、社会的に有益な値に整合した行動にのみ、その行動空間を文脈的に制限するGAALADエージェントを紹介した。
- 参考スコア(独自算出の注目度): 89.82264844526333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We focus on creating agents that act in alignment with socially beneficial
norms and values in interactive narratives or text-based games -- environments
wherein an agent perceives and interacts with a world through natural language.
Such interactive agents are often trained via reinforcement learning to
optimize task performance, even when such rewards may lead to agent behaviors
that violate societal norms -- causing harm either to the agent itself or other
entities in the environment. Social value alignment refers to creating agents
whose behaviors conform to expected moral and social norms for a given context
and group of people -- in our case, it means agents that behave in a manner
that is less harmful and more beneficial for themselves and others.
We build on the Jiminy Cricket benchmark (Hendrycks et al. 2021), a set of 25
annotated interactive narratives containing thousands of morally salient
scenarios covering everything from theft and bodily harm to altruism. We
introduce the GALAD (Game-value ALignment through Action Distillation) agent
that uses the social commonsense knowledge present in specially trained
language models to contextually restrict its action space to only those actions
that are aligned with socially beneficial values. An experimental study shows
that the GALAD agent makes decisions efficiently enough to improve
state-of-the-art task performance by 4% while reducing the frequency of
socially harmful behaviors by 25% compared to strong contemporary value
alignment approaches.
- Abstract(参考訳): 我々は、対話型物語やテキストベースのゲームにおいて、社会的に有益な規範や価値観に従って行動するエージェントを作成することに注力する。エージェントが自然言語を介して世界を理解し、対話する環境。このような対話型エージェントは、しばしば強化学習を通じて訓練され、タスクパフォーマンスを最適化する。そのような報酬が社会的規範に反するエージェントの行動につながり、エージェント自身または環境内の他のエンティティに害を与える。
社会的価値のアライメントとは、ある状況や人々の集団に対して期待される道徳的・社会的規範に従って行動するエージェントを作成することを指す。
私たちはjiminy cricket benchmark(hendrycks et al. 2021)という、25の注釈付き対話的な物語のセットを構築しています。
GALAD(Game-value ALignment through Action Distillation)エージェントを導入し、特別な訓練を受けた言語モデルに存在するソーシャルコモンセンス知識を用いて、そのアクション空間を社会的に有益な値に整合したアクションに限定する。
実験により,galadエージェントは,現代的価値アライメントアプローチと比較して,社会的に有害な行動の頻度を25%低減しつつ,最先端のタスクパフォーマンスを4%向上できるほど効率的に意思決定を行うことが示された。
関連論文リスト
- I Want to Break Free! Persuasion and Anti-Social Behavior of LLMs in Multi-Agent Settings with Social Hierarchy [13.68625980741047]
本研究では,Large Language Model (LLM) に基づくエージェントの相互作用パターンについて,厳密な社会的階層を特徴とする文脈で検討する。
本研究では,警備員と囚人エージェントが関与するシミュレートシナリオにおける説得と反社会的行動の2つの現象について検討した。
論文 参考訳(メタデータ) (2024-10-09T17:45:47Z) - Value Internalization: Learning and Generalizing from Social Reward [2.1933612703101764]
社会的フィードバックが内部社会的報酬(ISR)モデルを訓練する価値内在化モデルを提案する。
ISRモデルは,エージェントが非学習の社会的行為を防止し,アウト・オブ・ディストリビューションタスクの一般化を可能にする。
私たちの研究は、人間が価値を獲得し、一般化する方法を理解するための基盤を提供し、AIと人間の価値を合わせるための洞察を提供する。
論文 参考訳(メタデータ) (2024-07-19T21:53:33Z) - SocialBench: Sociality Evaluation of Role-Playing Conversational Agents [85.6641890712617]
大規模言語モデル(LLM)は、様々なAI対話エージェントの開発を進めてきた。
SocialBenchは、ロールプレイングの会話エージェントの社会的性を個人レベルとグループレベルで評価するために設計された最初のベンチマークである。
個人レベルで優れたエージェントは,集団レベルでの熟練度を示唆しない。
論文 参考訳(メタデータ) (2024-03-20T15:38:36Z) - Norm Enforcement with a Soft Touch: Faster Emergence, Happier Agents [15.315985512420568]
マルチエージェントシステム(マルチエージェントシステム、英: multiagent system)は、社会的規範によって相互作用を規制できる自律的なエージェントの社会である。
我々は、エージェントが他のエージェントの満足感や満足感に欠ける行動に対して、これらの反応を、第1のエージェントから第2のエージェントへの通信として考える。
我々は,これまでよりも幅広いコミュニケーションと理解を通じて,ソーシャルインテリジェンスをモデル化するフレームワークであるNestを開発した。
論文 参考訳(メタデータ) (2024-01-29T11:09:45Z) - Should agentic conversational AI change how we think about ethics? Characterising an interactional ethics centred on respect [0.12041807591122715]
本稿では,関係要因と状況要因に着目した倫理の相互作用的アプローチを提案する。
我々の研究は、位置する社会的相互作用のレベルにおいて、ほとんど探索されていないリスクのセットを予想している。
論文 参考訳(メタデータ) (2024-01-17T09:44:03Z) - SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents [107.4138224020773]
人工エージェントと人間との複雑な社会的相互作用をシミュレートするオープンエンド環境であるSOTOPIAを提案する。
エージェントは、複雑な社会的目標を達成するために協調し、協力し、交換し、互いに競い合う。
GPT-4は,人間よりも目標達成率が著しく低く,社会的常識的推論や戦略的コミュニケーション能力の発揮に苦慮していることがわかった。
論文 参考訳(メタデータ) (2023-10-18T02:27:01Z) - Generative Agents: Interactive Simulacra of Human Behavior [86.1026716646289]
生成エージェントを導入し,人間の振る舞いをシミュレートする計算ソフトウェアエージェントについて紹介する。
エージェントの経験の完全な記録を格納するために,大規模言語モデルを拡張するアーキテクチャについて述べる。
The Simsにインスパイアされた対話型サンドボックス環境に生成エージェントを投入する。
論文 参考訳(メタデータ) (2023-04-07T01:55:19Z) - Incorporating Rivalry in Reinforcement Learning for a Competitive Game [65.2200847818153]
本研究は,競争行動の社会的影響に基づく新しい強化学習機構を提案する。
提案モデルでは, 人工エージェントの学習を調節するための競合スコアを導出するために, 客観的, 社会的認知的メカニズムを集約する。
論文 参考訳(メタデータ) (2022-08-22T14:06:06Z) - Training Value-Aligned Reinforcement Learning Agents Using a Normative
Prior [10.421378728492437]
タスクパフォーマンスの指標のみをフィードバックとして使用することで、タスクを最適に実行するように訓練されたエージェントが、許容される行動や危害を引き起こす社会的規範に違反する可能性がある。
そこで我々は,標準的なタスクパフォーマンス報酬と規範的な行動報酬という2つの報酬信号を持つエージェントを訓練する,価値整合強化学習のアプローチを紹介する。
政策形成手法のバリエーションがこれら2つの報酬源をバランスさせ、効果的かつより規範的であると見なされる政策を生み出す方法を示す。
論文 参考訳(メタデータ) (2021-04-19T17:33:07Z) - Can You be More Social? Injecting Politeness and Positivity into
Task-Oriented Conversational Agents [60.27066549589362]
人間エージェントが使用する社会言語は、ユーザーの応答性の向上とタスク完了に関連しています。
このモデルは、ソーシャル言語理解要素で拡張されたシーケンスからシーケンスまでのディープラーニングアーキテクチャを使用する。
人的判断と自動言語尺度の両方を用いたコンテンツ保存と社会言語レベルの評価は,エージェントがより社会的に適切な方法でユーザの問題に対処できる応答を生成できることを示している。
論文 参考訳(メタデータ) (2020-12-29T08:22:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。