論文の概要: Using Cognitive Models to Train Warm Start Reinforcement Learning Agents
for Human-Computer Interactions
- arxiv url: http://arxiv.org/abs/2103.06160v1
- Date: Wed, 10 Mar 2021 16:20:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-12 11:11:54.067313
- Title: Using Cognitive Models to Train Warm Start Reinforcement Learning Agents
for Human-Computer Interactions
- Title(参考訳): 認知モデルを用いた人-コンピュータインタラクションのためのウォームスタート強化学習エージェントの訓練
- Authors: Chao Zhang, Shihan Wang, Henk Aarts and Mehdi Dastani
- Abstract要約: 本稿では,実ユーザに適用する前に,認知モデルを用いてRLエージェントを事前訓練する手法を提案する。
本研究の方法論的アプローチを概説し, 従来および現在進行中のプロジェクトから2つのケーススタディを提出した。
- 参考スコア(独自算出の注目度): 6.623676799228969
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) agents in human-computer interactions
applications require repeated user interactions before they can perform well.
To address this "cold start" problem, we propose a novel approach of using
cognitive models to pre-train RL agents before they are applied to real users.
After briefly reviewing relevant cognitive models, we present our general
methodological approach, followed by two case studies from our previous and
ongoing projects. We hope this position paper stimulates conversations between
RL, HCI, and cognitive science researchers in order to explore the full
potential of the approach.
- Abstract(参考訳): ヒューマンコンピュータインタラクションアプリケーションにおける強化学習(RL)エージェントは、正常に動作する前に繰り返しユーザーインタラクションを必要とする。
この「コールドスタート」問題に対処するため、実ユーザに適用する前に認知モデルを用いてRLエージェントを事前訓練する手法を提案する。
関連する認知モデルを簡単に検討した後,本研究の方法論的アプローチと,先行研究と継続研究の2つのケーススタディについて述べる。
このポジションペーパーは、RL、HCI、認知科学研究者間の対話を刺激し、アプローチの最大限の可能性を探ることを願っています。
関連論文リスト
- Enabling Real-Time Conversations with Minimal Training Costs [61.80370154101649]
本稿では,2つの言語モデルに対して,最小限の訓練を要し,2つの言語能力を持つ新しい重複復号法を提案する。
実験結果から,本手法はトレーニングコストの最小化とともに,ユーザとAIのインタラクションの自然性と人間的類似性を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-09-18T06:27:26Z) - Hello Again! LLM-powered Personalized Agent for Long-term Dialogue [63.65128176360345]
モデルに依存しない長期対話エージェント(LD-Agent)を導入する。
イベント認識、ペルソナ抽出、応答生成のための3つの独立した調整可能なモジュールが組み込まれている。
LD-Agentの有効性, 汎用性, クロスドメイン性について実験的に検証した。
論文 参考訳(メタデータ) (2024-06-09T21:58:32Z) - Planning with RL and episodic-memory behavioral priors [0.20305676256390934]
行動の事前から学ぶことは、エージェントをランダムな探索ポリシーでブートストラップする方法として有望だ。
強化学習環境における効果的な探索と学習にこれらの行動先行を活用できる計画に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2022-07-05T07:11:05Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement
Learning [85.3987745097806]
オフライン強化学習は、人間の話者から収集された静的データセットを使用して、対話エージェントをトレーニングするために使用することができる。
実験により,最近開発されたオフラインRL手法と言語モデルを組み合わせることで,現実的な対話エージェントが得られることが示された。
論文 参考訳(メタデータ) (2022-04-18T17:43:21Z) - Towards Interactive Reinforcement Learning with Intrinsic Feedback [1.7117805951258132]
強化学習(RL)と脳-コンピュータインターフェース(BCI)は、過去10年間で大きな成長を遂げてきた。
HITL(Human-in-the-loop)への関心が高まり、RLアルゴリズムに人間の入力を組み込むことで、インタラクティブなRLのサブフィールドが生まれている。
この新たな,新たなフィードバック媒体を本質的なフィードバックと表現する。
論文 参考訳(メタデータ) (2021-12-02T19:29:26Z) - Accelerating the Convergence of Human-in-the-Loop Reinforcement Learning
with Counterfactual Explanations [1.8275108630751844]
Human-in-the-loop Reinforcement Learning (HRL)は、人間のフィードバックと強化学習技術を組み合わせてこの問題に対処する。
我々は,既存のTAMERフレームワークを拡張して,2種類の反現実的説明を用いて,人間のフィードバックを強化する。
論文 参考訳(メタデータ) (2021-08-03T08:27:28Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Accelerating Reinforcement Learning Agent with EEG-based Implicit Human
Feedback [10.138798960466222]
人間のフィードバックによる強化学習(RL)エージェントは、学習のさまざまな側面を劇的に改善することができる。
従来の方法では、人間の観察者が明示的に入力をし、RLエージェントの学習プロセスのループで人間を負担する必要があった。
脳波による人間の内因性反応を、エラー関連電位(ErrP)の形で暗黙の(そして自然な)フィードバックとして捉えることを検討する。
論文 参考訳(メタデータ) (2020-06-30T03:13:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。