Fugu-MT 論文翻訳(概要): Towards Intrinsic Interactive Reinforcement Learning: A Survey

論文の概要: Towards Intrinsic Interactive Reinforcement Learning: A Survey

arxiv url: http://arxiv.org/abs/2112.01575v1
Date: Thu, 2 Dec 2021 19:29:26 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-06 15:00:40.974241
Title: Towards Intrinsic Interactive Reinforcement Learning: A Survey
Title（参考訳）: 内在的なインタラクティブ強化学習に向けて--調査
Authors: Benjamin Poole and Minwoo Lee
Abstract要約: 強化学習(RL)と脳-コンピュータインターフェース(BCI)は、過去10年間に成長してきた2つの分野です。 RLアルゴリズムは、対話型強化学習(IRL)のサブフィールドに繋がる人間の指導を考慮に入れられている。 BCIアプリケーションは、人間とコンピュータの相互作用の間、神経活動から本質的なフィードバックを抽出することに興味がある。
参考スコア（独自算出の注目度）: 3.566184392528658
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning (RL) and brain-computer interfaces (BCI) are two fields that have been growing over the past decade. Until recently, these fields have operated independently of one another. With the rising interest in human-in-the-loop (HITL) applications, RL algorithms have been adapted to account for human guidance giving rise to the sub-field of interactive reinforcement learning (IRL). Adjacently, BCI applications have been long interested in extracting intrinsic feedback from neural activity during human-computer interactions. These two ideas have set RL and BCI on a collision course for one another through the integration of BCI into the IRL framework where intrinsic feedback can be utilized to help train an agent. This intersection has been denoted as intrinsic IRL. To further help facilitate deeper ingratiation of BCI and IRL, we provide a review of intrinsic IRL with an emphasis on its parent field of feedback-driven IRL while also providing discussions concerning the validity, challenges, and future research directions.
Abstract（参考訳）: 強化学習(RL)と脳-コンピュータインターフェース(BCI)は、過去10年間に成長してきた2つの分野です。最近まで、これらの分野は独立して運営されてきた。 HITL(Human-in-the-loop)応用への関心が高まっているため、RLアルゴリズムは人間の指導に適応し、対話型強化学習(IRL)のサブフィールドを生み出している。近頃、BCIアプリケーションは人間とコンピュータの相互作用の間、神経活動から本質的なフィードバックを抽出することに興味を抱いていた。これら2つのアイデアは、内在的なフィードバックをエージェントのトレーニングに活用できるirlフレームワークへのbciの統合を通じて、rlとbciを衝突コースに設定している。この交差点は固有のIRLと表現されている。さらに,BCIとIRLのより深い接種を促進するため,本研究では,その親領域であるフィードバック駆動IRLに注目し,妥当性,課題,今後の研究方向性について議論する。

関連論文リスト

Mapping Neural Signals to Agent Performance, A Step Towards Reinforcement Learning from Neural Feedback [2.9060647847644985]
NEURO-LOOPは、人間とエージェントの相互作用を促進するために、本質的な人間報酬システムを利用する暗黙のフィードバックフレームワークである。この研究は、NEURO-LOOPフレームワークにおける重要な第一歩である脳信号をエージェントのパフォーマンスにマッピングする可能性を示している。従来の機械学習手法を用いて,fNIRSデータとエージェント性能の関係を検証した。
論文参考訳（メタデータ） (2025-06-14T21:38:31Z)
Playpen: An Environment for Exploring Learning Through Conversational Interaction [81.67330926729015]
本研究は,対話ゲームが学習のフィードバック信号の源として機能するかどうかを考察する。本稿では,対話ゲームによるオフラインおよびオンライン学習環境であるPlaypenを紹介する。 SFTによる模倣学習は、目に見えないインスタンスのパフォーマンスを向上させるが、他のスキルに悪影響を及ぼす。
論文参考訳（メタデータ） (2025-04-11T14:49:33Z)
Mapping out the Space of Human Feedback for Reinforcement Learning: A Conceptual Framework [13.949126295663328]
我々は、対話型学習シナリオにおける人間のフィードバックの共通理解を開発することにより、機械学習と人間とコンピュータの相互作用のギャップを埋める。そこで我々は,9つの重要な次元に基づいて,人的フィードバックから報酬に基づく学習を行うためのフィードバックタイプ分類を導入した。フィードバックを表現できる人間の能力と、フィードバックから学習するエージェントの能力に影響を及ぼす、人間のフィードバックの質の指標を7つ同定する。
論文参考訳（メタデータ） (2024-11-18T17:40:42Z)
A Survey of Reinforcement Learning from Human Feedback [28.92654784501927]
人間からのフィードバックからの強化学習(RLHF)は、工学的な報酬関数に頼るのではなく、人間のフィードバックから学習する強化学習(RL)の一種である。本稿では、RLHFの基礎を概観し、RLエージェントとヒューマンインプットの複雑なダイナミクスを探求する。
論文参考訳（メタデータ） (2023-12-22T18:58:06Z)
Neural-Logic Human-Object Interaction Detection [67.4993347702353]
本稿では,ニューラルロジック推論を利用した新しいHOI検出器であるL OGIC HOIと,実体間の相互作用を推測するTransformerを提案する。具体的には,バニラトランスフォーマーの自己保持機構を改変し,人間,行動,対象>三重項を推論し,新たな相互作用を構成する。我々はこれらの2つの特性を一階述語論理で定式化し、それらを連続空間に基底にして、我々のアプローチの学習過程を制約し、性能とゼロショットの一般化能力を向上させる。
論文参考訳（メタデータ） (2023-11-16T11:47:53Z)
Accelerating the Convergence of Human-in-the-Loop Reinforcement Learning with Counterfactual Explanations [1.8275108630751844]
Human-in-the-loop Reinforcement Learning (HRL)は、人間のフィードバックと強化学習技術を組み合わせてこの問題に対処する。我々は,既存のTAMERフレームワークを拡張して,2種類の反現実的説明を用いて,人間のフィードバックを強化する。
論文参考訳（メタデータ） (2021-08-03T08:27:28Z)
Backprop-Free Reinforcement Learning with Active Neural Generative Coding [84.11376568625353]
動的環境におけるエラー(バックプロップ)のバックプロパゲーションを伴わない行動駆動型生成モデルの学習のための計算フレームワークを提案する。我々は、まばらな報酬でも機能するインテリジェントエージェントを開発し、推論として計画の認知理論からインスピレーションを得ている。我々のエージェントの堅牢な性能は、神経推論と学習のためのバックプロップフリーアプローチがゴール指向の行動を促進するという有望な証拠を提供する。
論文参考訳（メタデータ） (2021-07-10T19:02:27Z)
PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文参考訳（メタデータ） (2021-06-09T14:10:50Z)
Using Cognitive Models to Train Warm Start Reinforcement Learning Agents for Human-Computer Interactions [6.623676799228969]
本稿では,実ユーザに適用する前に,認知モデルを用いてRLエージェントを事前訓練する手法を提案する。本研究の方法論的アプローチを概説し, 従来および現在進行中のプロジェクトから2つのケーススタディを提出した。
論文参考訳（メタデータ） (2021-03-10T16:20:02Z)
Widening the Pipeline in Human-Guided Reinforcement Learning with Explanation and Context-Aware Data Augmentation [20.837228359591663]
本研究は,人間によるループ内強化学習における視覚的説明を用いた最初の研究である。本研究では,タスク関連機能をコンテキスト対応データ拡張を通じて符号化することをモデルに推奨するEXPANDを提案する。
論文参考訳（メタデータ） (2020-06-26T05:40:05Z)
Cost-effective Interactive Attention Learning with Neural Attention Processes [79.8115563067513]
対話型注意学習(Interactive Attention Learning, IAL)と呼ばれる対話型学習フレームワークを提案する。 IALは、人間のアノテーションが不足しているため、過度に適合する傾向がある。我々は,サンプル効率のよい注意機構と,コスト効率のよいインスタンスと機能の再ランクアルゴリズムを提案することで,これらの課題に対処する。
論文参考訳（メタデータ） (2020-06-09T17:36:41Z)
Knowledge-guided Deep Reinforcement Learning for Interactive Recommendation [49.32287384774351]
インタラクティブレコメンデーションは、アイテムとユーザ間の動的インタラクションから学び、応答性と精度を達成することを目的としている。本稿では,知識指導型深層強化学習を提案する。
論文参考訳（メタデータ） (2020-04-17T05:26:47Z)
Facial Feedback for Reinforcement Learning: A Case Study and Offline Analysis Using the TAMER Framework [51.237191651923666]
訓練者の表情からエージェント学習の可能性について,評価フィードバックとして解釈することで検討した。設計したCNN-RNNモデルを用いて,学習者に対して表情とコンペティションの使用を指示することで,肯定的および否定的なフィードバックを推定する精度を向上させることができることを示す。シミュレーション実験の結果,表情に基づく予測フィードバックのみから学習できることが示唆された。
論文参考訳（メタデータ） (2020-01-23T17:50:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。