論文の概要: Aligning Humans and Robots via Reinforcement Learning from Implicit Human Feedback
- arxiv url: http://arxiv.org/abs/2507.13171v1
- Date: Thu, 17 Jul 2025 14:35:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.540327
- Title: Aligning Humans and Robots via Reinforcement Learning from Implicit Human Feedback
- Title(参考訳): 意図しないフィードバックからの強化学習による人間とロボットの調整
- Authors: Suzie Kim, Hye-Bin Shin, Seong-Whan Lee,
- Abstract要約: 非侵襲脳波(EEG)信号を利用した暗黙のフィードバック(RLIHF)フレームワークによる新しい強化学習を提案する。
我々は,Kinova Gen2ロボットアームを用いて,MuJoCo物理エンジン上に構築したシミュレーション環境におけるアプローチを評価した。
結果は、デコードされた脳波フィードバックで訓練されたエージェントが、密集した手作業による報酬で訓練されたエージェントに匹敵するパフォーマンスを達成することを示している。
- 参考スコア(独自算出の注目度): 26.585985828583304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional reinforcement learning (RL) ap proaches often struggle to learn effective policies under sparse reward conditions, necessitating the manual design of complex, task-specific reward functions. To address this limitation, rein forcement learning from human feedback (RLHF) has emerged as a promising strategy that complements hand-crafted rewards with human-derived evaluation signals. However, most existing RLHF methods depend on explicit feedback mechanisms such as button presses or preference labels, which disrupt the natural interaction process and impose a substantial cognitive load on the user. We propose a novel reinforcement learning from implicit human feedback (RLIHF) framework that utilizes non-invasive electroencephalography (EEG) signals, specifically error-related potentials (ErrPs), to provide continuous, implicit feedback without requiring explicit user intervention. The proposed method adopts a pre-trained decoder to transform raw EEG signals into probabilistic reward components, en abling effective policy learning even in the presence of sparse external rewards. We evaluate our approach in a simulation environment built on the MuJoCo physics engine, using a Kinova Gen2 robotic arm to perform a complex pick-and-place task that requires avoiding obstacles while manipulating target objects. The results show that agents trained with decoded EEG feedback achieve performance comparable to those trained with dense, manually designed rewards. These findings validate the potential of using implicit neural feedback for scalable and human-aligned reinforcement learning in interactive robotics.
- Abstract(参考訳): 従来の強化学習(RL)は、複雑なタスク固有の報酬関数を手動で設計する必要があるため、粗末な報酬条件下で効果的な政策を学ぶのに苦労することが多い。
この制限に対処するため、人間からのフィードバックからの強化学習(RLHF)は、手作りの報酬を人間由来の評価信号に補完する有望な戦略として登場した。
しかし、既存のRLHF手法の多くはボタン押下や優先ラベルのような明示的なフィードバック機構に依存しており、これは自然なインタラクションプロセスを破壊し、ユーザに対してかなりの認知負荷を課す。
本研究では,非侵襲脳波(EEG)信号,特にエラー関連電位(ErrP)を利用した暗黙的フィードバック(RLIHF)フレームワークによる新たな強化学習手法を提案する。
提案手法では,事前学習したデコーダを用いて生の脳波信号を確率的報酬成分に変換する。
我々は,MuJoCo物理エンジン上に構築されたシミュレーション環境において,Kinova Gen2ロボットアームを用いて,目標物体を操作しながら障害物を回避する複雑なピック・アンド・プレイス作業を行う。
その結果、デコードされた脳波フィードバックで訓練されたエージェントは、密集した手作業による報酬で訓練されたエージェントに匹敵するパフォーマンスを達成することがわかった。
これらの結果は、対話型ロボティクスにおけるスケーラブルで人間と協調した強化学習に暗黙の神経フィードバックを用いることの可能性を検証する。
関連論文リスト
- Mapping Neural Signals to Agent Performance, A Step Towards Reinforcement Learning from Neural Feedback [2.9060647847644985]
NEURO-LOOPは、人間とエージェントの相互作用を促進するために、本質的な人間報酬システムを利用する暗黙のフィードバックフレームワークである。
この研究は、NEURO-LOOPフレームワークにおける重要な第一歩である脳信号をエージェントのパフォーマンスにマッピングする可能性を示している。
従来の機械学習手法を用いて,fNIRSデータとエージェント性能の関係を検証した。
論文 参考訳(メタデータ) (2025-06-14T21:38:31Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILe(Reinforced Learning)は、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous
Manipulation [61.7171775202833]
本稿では,強化学習による巧妙な操作スキルの学習を効率化するシステムを提案する。
我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。
本システムでは,実世界の学習サイクルを,模倣に基づくピックアップポリシを通じて学習されたリセットを組み込むことで完遂する。
論文 参考訳(メタデータ) (2023-09-06T19:05:31Z) - Active Predicting Coding: Brain-Inspired Reinforcement Learning for
Sparse Reward Robotic Control Problems [79.07468367923619]
ニューラルジェネレーティブ・コーディング(NGC)の神経認知計算フレームワークによるロボット制御へのバックプロパゲーションフリーアプローチを提案する。
我々は、スパース報酬から動的オンライン学習を容易にする強力な予測符号化/処理回路から完全に構築されたエージェントを設計する。
提案するActPCエージェントは,スパース(外部)報酬信号に対して良好に動作し,複数の強力なバックプロップベースのRLアプローチと競合し,性能が優れていることを示す。
論文 参考訳(メタデータ) (2022-09-19T16:49:32Z) - Backprop-Free Reinforcement Learning with Active Neural Generative
Coding [84.11376568625353]
動的環境におけるエラー(バックプロップ)のバックプロパゲーションを伴わない行動駆動型生成モデルの学習のための計算フレームワークを提案する。
我々は、まばらな報酬でも機能するインテリジェントエージェントを開発し、推論として計画の認知理論からインスピレーションを得ている。
我々のエージェントの堅牢な性能は、神経推論と学習のためのバックプロップフリーアプローチがゴール指向の行動を促進するという有望な証拠を提供する。
論文 参考訳(メタデータ) (2021-07-10T19:02:27Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Accelerating Reinforcement Learning Agent with EEG-based Implicit Human
Feedback [10.138798960466222]
人間のフィードバックによる強化学習(RL)エージェントは、学習のさまざまな側面を劇的に改善することができる。
従来の方法では、人間の観察者が明示的に入力をし、RLエージェントの学習プロセスのループで人間を負担する必要があった。
脳波による人間の内因性反応を、エラー関連電位(ErrP)の形で暗黙の(そして自然な)フィードバックとして捉えることを検討する。
論文 参考訳(メタデータ) (2020-06-30T03:13:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。