論文の概要: Humans are not Boltzmann Distributions: Challenges and Opportunities for
Modelling Human Feedback and Interaction in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2206.13316v1
- Date: Mon, 27 Jun 2022 13:58:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 14:20:54.643905
- Title: Humans are not Boltzmann Distributions: Challenges and Opportunities for
Modelling Human Feedback and Interaction in Reinforcement Learning
- Title(参考訳): 人間はボルツマン分布ではない:強化学習における人間のフィードバックと相互作用をモデル化する挑戦と機会
- Authors: David Lindner and Mennatallah El-Assady
- Abstract要約: これらのモデルは単純すぎるし、RLの研究者たちはアルゴリズムを設計し評価するために、より現実的な人間モデルを開発する必要がある、と我々は主張する。
本稿は、AIへのフィードバックの仕方や、より堅牢なループ内RLシステムの構築方法について、さまざまな分野からの研究を募集する。
- 参考スコア(独自算出の注目度): 13.64577704565643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) commonly assumes access to well-specified reward
functions, which many practical applications do not provide. Instead, recently,
more work has explored learning what to do from interacting with humans. So
far, most of these approaches model humans as being (nosily) rational and, in
particular, giving unbiased feedback. We argue that these models are too
simplistic and that RL researchers need to develop more realistic human models
to design and evaluate their algorithms. In particular, we argue that human
models have to be personal, contextual, and dynamic. This paper calls for
research from different disciplines to address key questions about how humans
provide feedback to AIs and how we can build more robust human-in-the-loop RL
systems.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、よく特定された報酬関数へのアクセスを前提としている。
最近、人間との対話から何をすべきかを学ぶ研究が増えている。
これまでのところ、これらのアプローチのほとんどは、人間を(当然)合理的であり、特に偏りのないフィードバックを与えるとモデル化している。
これらのモデルは単純すぎるし、RLの研究者たちはアルゴリズムを設計し評価するためにより現実的な人間モデルを開発する必要がある。
特に、人間モデルは個人的、文脈的、動的でなければならないと我々は主張する。
本稿は、AIへのフィードバックの仕方や、より堅牢なループ内RLシステムの構築方法について、さまざまな分野からの研究を募集する。
関連論文リスト
- Real-time Addressee Estimation: Deployment of a Deep-Learning Model on
the iCub Robot [52.277579221741746]
住所推定は、社会ロボットが人間とスムーズに対話するために必要なスキルである。
人間の知覚スキルにインスパイアされたディープラーニングモデルは、iCubロボットに設計、訓練、デプロイされる。
本研究では,人間-ロボットのリアルタイムインタラクションにおいて,そのような実装の手順とモデルの性能について述べる。
論文 参考訳(メタデータ) (2023-11-09T13:01:21Z) - Few-Shot Preference Learning for Human-in-the-Loop RL [13.773589150740898]
メタラーニングの成功に触発された我々は、先行タスクデータに対する嗜好モデルを事前訓練し、少数のクエリだけで新しいタスクに迅速に適応する。
メタワールドにおける操作ポリシーのトレーニングに必要なオンラインフィードバックの量を20$times$に削減し,実際のフランカ・パンダロボット上での手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-12-06T23:12:26Z) - Optimal Behavior Prior: Data-Efficient Human Models for Improved
Human-AI Collaboration [0.5524804393257919]
人間のモデルに最適な振る舞いを先行して使用すると、これらのモデルの方がはるかにデータ効率が良くなることを示す。
また、これらの改良された人間モデルを使用することで、人間とAIのコラボレーションのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2022-11-03T06:10:22Z) - JECC: Commonsense Reasoning Tasks Derived from Interactive Fictions [75.42526766746515]
本稿では,人間のインタラクティブ・フィクション(IF)ゲームプレイ・ウォークスルーに基づく新しいコモンセンス推論データセットを提案する。
本データセットは,事実知識ではなく,機能的コモンセンス知識ルールの評価に重点を置いている。
実験の結果、導入したデータセットは、以前の機械読影モデルと新しい大規模言語モデルに難題であることが示されている。
論文 参考訳(メタデータ) (2022-10-18T19:20:53Z) - Cognitive Models as Simulators: The Case of Moral Decision-Making [9.024707986238392]
本研究では,AIシステムと対話し,人間の代わりに認知モデルからフィードバックを収集することを目的としたシミュレータとして,$textitcognitive Modelのアイデアを裏付ける。
ここでは、ウルティマトゥムゲーム(UG)の認知モデルと相互作用することで、強化学習エージェントに公正さについて学ばせることにより、道徳的意思決定の文脈でこの考え方を活用する。
我々の研究は、人間のシミュレーターとして認知モデルを使用することがAIシステムのトレーニングに効果的なアプローチであり、AIに貢献するための計算認知科学の重要な方法を提供することを示唆している。
論文 参考訳(メタデータ) (2022-10-08T23:14:14Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Modeling Human Behavior Part I -- Learning and Belief Approaches [0.0]
探索とフィードバックを通じて行動のモデルや方針を学ぶ手法に焦点を当てる。
次世代の自律的適応システムは、主にAIエージェントと人間がチームとして一緒に働く。
論文 参考訳(メタデータ) (2022-05-13T07:33:49Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Humans learn too: Better Human-AI Interaction using Optimized Human
Inputs [2.5991265608180396]
人間はますますAIコンポーネントを持つシステムに依存している。
AIコミュニティは通常、人間の入力を与えられたものとして扱い、AIモデルのみを最適化する。
この作業では、モデルの修正を維持しながら、AIモデルとのより優れたインタラクションのために、人間の入力が最適化される。
論文 参考訳(メタデータ) (2020-09-19T16:30:37Z) - Weak Human Preference Supervision For Deep Reinforcement Learning [48.03929962249475]
人間の好みによる現在の報酬学習は、報酬関数にアクセスせずに複雑な強化学習(RL)タスクを解決するために使用できる。
そこで我々は,人間の嗜好スケーリングモデルを開発した,弱い人間の嗜好監視フレームワークを提案する。
提案手法では,環境との相互作用の 0.01% 未満の人的フィードバックしか必要としない。
論文 参考訳(メタデータ) (2020-07-25T10:37:15Z) - Machine Common Sense [77.34726150561087]
機械の常識は、人工知能(AI)において広範で潜在的に無拘束な問題のままである
本稿では、対人インタラクションのようなドメインに焦点を当てたコモンセンス推論のモデル化の側面について論じる。
論文 参考訳(メタデータ) (2020-06-15T13:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。