論文の概要: Thought Cloning: Learning to Think while Acting by Imitating Human
Thinking
- arxiv url: http://arxiv.org/abs/2306.00323v1
- Date: Thu, 1 Jun 2023 03:43:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 18:20:23.142004
- Title: Thought Cloning: Learning to Think while Acting by Imitating Human
Thinking
- Title(参考訳): 思考クローン:人間の思考を模倣して行動しながら考えることを学ぶ
- Authors: Shengran Hu and Jeff Clune
- Abstract要約: 強化学習(RL)エージェントは、これらの能力において人間レベルのパフォーマンスには程遠い。
そこでは、人間のデモ参加者の行動のクローン化だけでなく、人間がこうした行動を行うときの思考も紹介する。
その結果、Thought Cloningは振舞いクローンよりもはるかに早く学習し、そのパフォーマンス上の優位性は分散テストタスクの更なるアウトアウトを増大させます。
- 参考スコア(独自算出の注目度): 4.676074196997298
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language is often considered a key aspect of human thinking, providing us
with exceptional abilities to generalize, explore, plan, replan, and adapt to
new situations. However, Reinforcement Learning (RL) agents are far from
human-level performance in any of these abilities. We hypothesize one reason
for such cognitive deficiencies is that they lack the benefits of thinking in
language and that we can improve AI agents by training them to think like
humans do. We introduce a novel Imitation Learning framework, Thought Cloning,
where the idea is to not just clone the behaviors of human demonstrators, but
also the thoughts humans have as they perform these behaviors. While we expect
Thought Cloning to truly shine at scale on internet-sized datasets of humans
thinking out loud while acting (e.g. online videos with transcripts), here we
conduct experiments in a domain where the thinking and action data are
synthetically generated. Results reveal that Thought Cloning learns much faster
than Behavioral Cloning and its performance advantage grows the further out of
distribution test tasks are, highlighting its ability to better handle novel
situations. Thought Cloning also provides important benefits for AI Safety and
Interpretability, and makes it easier to debug and improve AI. Because we can
observe the agent's thoughts, we can (1) more easily diagnose why things are
going wrong, making it easier to fix the problem, (2) steer the agent by
correcting its thinking, or (3) prevent it from doing unsafe things it plans to
do. Overall, by training agents how to think as well as behave, Thought Cloning
creates safer, more powerful agents.
- Abstract(参考訳): 言語はしばしば人間の思考の重要な側面と見なされ、新しい状況への一般化、探索、計画、計画、適応の特別な能力を与えてくれる。
しかしながら、強化学習(rl)エージェントは、これらの能力の人間レベルのパフォーマンスとは程遠い。
このような認知的欠陥の1つの理由は、言語における思考の利点が欠けていること、そして人間のように考えるように訓練することでAIエージェントを改善することができることである。
我々は、人間のデモ参加者の行動をクローンするだけでなく、人間がこうした行動を行うときに持つ思考をクローンする、新しいImitation Learning framework、Thought Cloningを導入する。
我々は、行動中に大声で思考する人間のインターネットサイズのデータセット(例えば、書き起こしを含むオンラインビデオ)に、思考クローンが真に光ることを期待しているが、ここでは思考と行動データが合成的に生成される領域で実験を行う。
その結果、Thought Cloningは振舞いクローンよりもはるかに早く学習し、そのパフォーマンス上の優位性は、分散テストタスクの更なるアウトオブアウトを増大させ、新しい状況に対処する能力を強調している。
Thought Cloningはまた、AIの安全性と解釈可能性に重要なメリットを提供し、AIのデバッグと改善を容易にする。
エージェントの思考を観察できるので、(1)物事がなぜうまくいかなかったのかをより容易に診断でき、問題の修正が容易になったり、(2)思考の修正によってエージェントを操ったり、(3)計画している安全でないことをするのを防ぐことができる。
全体として、エージェントの思考と行動の訓練によって、Thought Cloningはより安全で強力なエージェントを生み出します。
関連論文リスト
- Silico-centric Theory of Mind [0.2209921757303168]
心の理論(りょうりょう、英: Theory of Mind、ToM)とは、信念、欲望、意図、知識などの精神状態が自分自身や他者へ帰属する能力のこと。
複数の独立したAIエージェントを持つ環境におけるToMについて検討する。
論文 参考訳(メタデータ) (2024-03-14T11:22:51Z) - Theory of Mind abilities of Large Language Models in Human-Robot
Interaction : An Illusion? [18.770522926093786]
大規模言語モデルは、様々な自然言語や生成タスクにおいて例外的な生成能力を示している。
高い利害関係とおそらく不可逆的な結果を持つToM能力の特殊応用について検討する。
本研究では,ロボットがLarge Language Model(LLM)を用いてロボットの動作を人間の観察者と同様の方法で評価する,知覚的行動認識の課題に焦点を当てる。
論文 参考訳(メタデータ) (2024-01-10T18:09:36Z) - The Neuro-Symbolic Inverse Planning Engine (NIPE): Modeling
Probabilistic Social Inferences from Linguistic Inputs [50.32802502923367]
確率的目標推論領域における言語駆動の過程と社会的推論への影響について検討する。
本稿では,エージェントシナリオの言語入力から目標推定を行うニューロシンボリックモデルを提案する。
我々のモデルは人間の反応パターンと密に一致し、LLM単独の使用よりも人間の判断をより良く予測する。
論文 参考訳(メタデータ) (2023-06-25T19:38:01Z) - Learning to Influence Human Behavior with Offline Reinforcement Learning [70.7884839812069]
人間の準最適性を捉える必要があるような環境での影響に焦点を当てる。
人間によるオンライン実験は安全ではない可能性があり、環境の高忠実度シミュレータを作成することは現実的ではないことが多い。
オフライン強化学習は、観察された人間・人間の行動の要素を拡張し、組み合わせることで、人間に効果的に影響を及ぼすことができることを示す。
論文 参考訳(メタデータ) (2023-03-03T23:41:55Z) - Memory-Augmented Theory of Mind Network [59.9781556714202]
社会的推論は、心の理論(ToM)の能力を必要とする。
ToMに対する最近の機械学習アプローチは、観察者が過去を読み、他のエージェントの振る舞いを提示するように訓練できることを実証している。
我々は,新たなニューラルメモリ機構を組み込んで符号化し,階層的な注意を払って他者に関する情報を選択的に検索することで,課題に対処する。
この結果、ToMMYは心的プロセスについての仮定をほとんど行わずに理性を学ぶマインドモデルである。
論文 参考訳(メタデータ) (2023-01-17T14:48:58Z) - Improving Multimodal Interactive Agents with Reinforcement Learning from
Human Feedback [16.268581985382433]
人工知能の重要な目標は、人間と自然に対話し、フィードバックから学ぶことができるエージェントを作ることである。
ここでは、人間のフィードバックから強化学習を用いて、シミュレーションされたエンボディエージェントを改善する方法を紹介する。
論文 参考訳(メタデータ) (2022-11-21T16:00:31Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z) - Learning Human Rewards by Inferring Their Latent Intelligence Levels in
Multi-Agent Games: A Theory-of-Mind Approach with Application to Driving Data [18.750834997334664]
我々は、人間は有理論的であり、他人の意思決定過程を推論する際に異なる知能レベルを持っていると論じる。
学習中の人間の潜在知能レベルを推論する,新しいマルチエージェント逆強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-07T07:48:31Z) - AGENT: A Benchmark for Core Psychological Reasoning [60.35621718321559]
直観心理学は、観察可能な行動を駆動する隠された精神変数を推論する能力です。
他のエージェントを推論する機械エージェントに対する近年の関心にもかかわらず、そのようなエージェントが人間の推論を駆動するコア心理学の原則を学ぶか保持するかは明らかではない。
本稿では,プロシージャが生成する3dアニメーション,エージェントを4つのシナリオで構成したベンチマークを提案する。
論文 参考訳(メタデータ) (2021-02-24T14:58:23Z) - Imitating Interactive Intelligence [24.95842455898523]
仮想環境の簡略化を用いて、人間と自然に相互作用できる人工エージェントの設計方法を検討する。
人間とロバストに相互作用できるエージェントを構築するには、人間と対話しながらトレーニングするのが理想的です。
我々は,人間とエージェントエージェントの対話行動の相違を低減するために,逆強化学習の考え方を用いる。
論文 参考訳(メタデータ) (2020-12-10T13:55:47Z) - Emergence of Pragmatics from Referential Game between Theory of Mind
Agents [64.25696237463397]
エージェントが手書きのルールを指定せずに「行間を読む」能力を自発的に学習するアルゴリズムを提案する。
協調型マルチエージェント教育状況における心の理論(ToM)を統合し,適応型強化学習(RL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-21T19:37:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。