論文の概要: Cognitive Models as Simulators: The Case of Moral Decision-Making
- arxiv url: http://arxiv.org/abs/2210.04121v1
- Date: Sat, 8 Oct 2022 23:14:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 15:50:43.217057
- Title: Cognitive Models as Simulators: The Case of Moral Decision-Making
- Title(参考訳): シミュレータとしての認知モデル--道徳的意思決定の場合
- Authors: Ardavan S. Nobandegani, Thomas R. Shultz, Irina Rish
- Abstract要約: 本研究では,AIシステムと対話し,人間の代わりに認知モデルからフィードバックを収集することを目的としたシミュレータとして,$textitcognitive Modelのアイデアを裏付ける。
ここでは、ウルティマトゥムゲーム(UG)の認知モデルと相互作用することで、強化学習エージェントに公正さについて学ばせることにより、道徳的意思決定の文脈でこの考え方を活用する。
我々の研究は、人間のシミュレーターとして認知モデルを使用することがAIシステムのトレーニングに効果的なアプローチであり、AIに貢献するための計算認知科学の重要な方法を提供することを示唆している。
- 参考スコア(独自算出の注目度): 9.024707986238392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To achieve desirable performance, current AI systems often require huge
amounts of training data. This is especially problematic in domains where
collecting data is both expensive and time-consuming, e.g., where AI systems
require having numerous interactions with humans, collecting feedback from
them. In this work, we substantiate the idea of $\textit{cognitive models as
simulators}$, which is to have AI systems interact with, and collect feedback
from, cognitive models instead of humans, thereby making their training process
both less costly and faster. Here, we leverage this idea in the context of
moral decision-making, by having reinforcement learning (RL) agents learn about
fairness through interacting with a cognitive model of the Ultimatum Game (UG),
a canonical task in behavioral and brain sciences for studying fairness.
Interestingly, these RL agents learn to rationally adapt their behavior
depending on the emotional state of their simulated UG responder. Our work
suggests that using cognitive models as simulators of humans is an effective
approach for training AI systems, presenting an important way for computational
cognitive science to make contributions to AI.
- Abstract(参考訳): 望ましいパフォーマンスを達成するために、現在のAIシステムは、しばしば大量のトレーニングデータを必要とする。
これは、データ収集が高価かつ時間を要する領域において特に問題となる。例えば、AIシステムは人間と多くの対話を必要とし、フィードバックを収集する。
この研究では、aiシステムが人間ではなく認知モデルと対話し、フィードバックを収集することで、彼らのトレーニングプロセスが安価で速くなるという、$\textit{cognitive models as simulators}$というアイデアを実証する。
本稿では,この概念をモラル意思決定の文脈において活用し,強化学習(rl)エージェントに,行動科学や脳科学の正準的課題であるultimatum game(ug)の認知モデルとのインタラクションを通じて公平性について学習させる。
興味深いことに、これらのRLエージェントは、シミュレーションされたUG応答子の感情状態に応じて、行動に合理的に適応することを学ぶ。
私たちの研究は、人間のシミュレータとして認知モデルを使用することが、aiシステムのトレーニングに効果的なアプローチであることを示唆している。
関連論文リスト
- User Behavior Simulation with Large Language Model based Agents [116.74368915420065]
LLMベースのエージェントフレームワークを提案し,実際のユーザ動作をシミュレートするサンドボックス環境を設計する。
実験結果から,本手法のシミュレーション行動は実人の行動に非常に近いことが判明した。
論文 参考訳(メタデータ) (2023-06-05T02:58:35Z) - Hindsight States: Blending Sim and Real Task Elements for Efficient
Reinforcement Learning [61.3506230781327]
ロボット工学では、第一原理から導かれた力学モデルに基づくシミュレーションに基づいて、トレーニングデータを生成する方法がある。
ここでは、力学の複雑さの不均衡を利用して、より標本効率のよい学習を行う。
提案手法をいくつかの課題に対して検証し,既存の近視アルゴリズムと組み合わせた場合の学習改善を実証する。
論文 参考訳(メタデータ) (2023-03-03T21:55:04Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Improving Multimodal Interactive Agents with Reinforcement Learning from
Human Feedback [16.268581985382433]
人工知能の重要な目標は、人間と自然に対話し、フィードバックから学ぶことができるエージェントを作ることである。
ここでは、人間のフィードバックから強化学習を用いて、シミュレーションされたエンボディエージェントを改善する方法を紹介する。
論文 参考訳(メタデータ) (2022-11-21T16:00:31Z) - Explainability Via Causal Self-Talk [9.149689942389923]
AIシステムの振る舞いを説明することは、実際には一般的に避けられる重要な問題である。
私たちは、すべてのデシダータを満たす効果的な方法を説明します。AIシステムをトレーニングして、それ自体の因果モデルを構築します。
この手法をシミュレーションした3次元環境に実装し、エージェントが忠実で意味論的に意味のある説明を生成する方法を示す。
論文 参考訳(メタデータ) (2022-11-17T23:17:01Z) - Humans are not Boltzmann Distributions: Challenges and Opportunities for
Modelling Human Feedback and Interaction in Reinforcement Learning [13.64577704565643]
これらのモデルは単純すぎるし、RLの研究者たちはアルゴリズムを設計し評価するために、より現実的な人間モデルを開発する必要がある、と我々は主張する。
本稿は、AIへのフィードバックの仕方や、より堅牢なループ内RLシステムの構築方法について、さまざまな分野からの研究を募集する。
論文 参考訳(メタデータ) (2022-06-27T13:58:51Z) - Modeling Human Behavior Part I -- Learning and Belief Approaches [0.0]
探索とフィードバックを通じて行動のモデルや方針を学ぶ手法に焦点を当てる。
次世代の自律的適応システムは、主にAIエージェントと人間がチームとして一緒に働く。
論文 参考訳(メタデータ) (2022-05-13T07:33:49Z) - Robot Learning from Randomized Simulations: A Review [59.992761565399185]
ディープラーニングがロボティクス研究のパラダイムシフトを引き起こし、大量のデータを必要とする方法が好まれている。
最先端のアプローチは、データ生成が高速かつ安価であるシミュレーションで学ぶ。
本稿では,ランダム化シミュレーションから学習する手法である「領域ランダム化」に焦点をあてる。
論文 参考訳(メタデータ) (2021-11-01T13:55:41Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Learning Human Rewards by Inferring Their Latent Intelligence Levels in
Multi-Agent Games: A Theory-of-Mind Approach with Application to Driving Data [18.750834997334664]
我々は、人間は有理論的であり、他人の意思決定過程を推論する際に異なる知能レベルを持っていると論じる。
学習中の人間の潜在知能レベルを推論する,新しいマルチエージェント逆強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-07T07:48:31Z) - Is the Most Accurate AI the Best Teammate? Optimizing AI for Teamwork [54.309495231017344]
AIシステムは人間中心の方法でトレーニングされ、チームのパフォーマンスに直接最適化されるべきである、と私たちは主張する。
我々は,AIレコメンデーションを受け入れるか,あるいはタスク自体を解決するかを選択する,特定のタイプのAIチームを提案する。
実世界の高精度データセット上での線形モデルと非線形モデルによる実験は、AIが最も正確であることは、最高のチームパフォーマンスに繋がらないことを示している。
論文 参考訳(メタデータ) (2020-04-27T19:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。