論文の概要: Mixture of Autoencoder Experts Guidance using Unlabeled and Incomplete Data for Exploration in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2507.15287v1
- Date: Mon, 21 Jul 2025 06:38:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.287688
- Title: Mixture of Autoencoder Experts Guidance using Unlabeled and Incomplete Data for Exploration in Reinforcement Learning
- Title(参考訳): 強化学習における未ラベルデータと不完全データを用いた自己エンコーダエキスパート指導の混合
- Authors: Elias Malomgré, Pieter Simoens,
- Abstract要約: 不完全かつ不完全であっても、専門家によるデモンストレーションを効果的に活用できるフレームワークを提案する。
私たちはMixturecoder Autoen Expertsを使って、デモでさまざまな振る舞いや不足した情報をキャプチャします。
- 参考スコア(独自算出の注目度): 1.607353805620917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent trends in Reinforcement Learning (RL) highlight the need for agents to learn from reward-free interactions and alternative supervision signals, such as unlabeled or incomplete demonstrations, rather than relying solely on explicit reward maximization. Additionally, developing generalist agents that can adapt efficiently in real-world environments often requires leveraging these reward-free signals to guide learning and behavior. However, while intrinsic motivation techniques provide a means for agents to seek out novel or uncertain states in the absence of explicit rewards, they are often challenged by dense reward environments or the complexity of high-dimensional state and action spaces. Furthermore, most existing approaches rely directly on the unprocessed intrinsic reward signals, which can make it difficult to shape or control the agent's exploration effectively. We propose a framework that can effectively utilize expert demonstrations, even when they are incomplete and imperfect. By applying a mapping function to transform the similarity between an agent's state and expert data into a shaped intrinsic reward, our method allows for flexible and targeted exploration of expert-like behaviors. We employ a Mixture of Autoencoder Experts to capture a diverse range of behaviors and accommodate missing information in demonstrations. Experiments show our approach enables robust exploration and strong performance in both sparse and dense reward environments, even when demonstrations are sparse or incomplete. This provides a practical framework for RL in realistic settings where optimal data is unavailable and precise reward control is needed.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)の最近の傾向は、明示的な報酬の最大化にのみ依存するのではなく、報酬のない相互作用や、ラベルなしや不完全なデモンストレーションのような代替の監督信号から学ぶエージェントの必要性を強調している。
さらに、現実世界の環境で効率的に適応できる汎用エージェントを開発するには、学習と行動のガイドに報酬のない信号を活用する必要があることが多い。
しかしながら、本質的なモチベーション技術は、明示的な報酬がない場合、エージェントが新しい状態や不確実な状態を探索する手段を提供する一方で、密集した報酬環境や高次元の状態や行動空間の複雑さによってしばしば挑戦される。
さらに、既存のほとんどのアプローチは、未処理の本質的な報酬信号に直接依存しており、エージェントの探索を効果的に形成または制御することが困難になる。
不完全かつ不完全であっても、専門家によるデモンストレーションを効果的に活用できるフレームワークを提案する。
エージェントの状態と専門家データとの類似性を固有報酬に変換するためにマッピング関数を適用することにより、専門家的な振る舞いを柔軟かつ対象とする探索を可能にする。
我々は、多様な振る舞いを捉え、デモで欠落した情報を収容するために、Mixture of Autoencoder Expertsを使用している。
実験の結果,実験が不十分であったり不完全であったりしても,スパースと高密度の報酬環境において,ロバストな探索と強靭な性能を実現することができた。
これにより、最適なデータが利用できなくなり、正確な報酬制御が必要な現実的な環境でRLの実践的なフレームワークを提供する。
関連論文リスト
- Exploratory Diffusion Model for Unsupervised Reinforcement Learning [28.413426177336703]
非教師なし強化学習(URL)は、報酬のない環境で多様な状態やスキルを探索し、エージェントを事前訓練することを目的としている。
既存の手法は、探索されたデータをモデル化し、さらなる探索を促進するために本質的な報酬を設計する。
実験データに適合する拡散モデルの強い表現能力を利用する探索拡散モデル(ExDM)を提案する。
論文 参考訳(メタデータ) (2025-02-11T05:48:51Z) - Offline Reinforcement Learning with Imputed Rewards [8.856568375969848]
本稿では,報酬を付与した環境遷移のごく限られたサンプルから報酬信号を推定できるリワードモデルを提案する。
その結果、元のデータセットからの報酬ラベル付き遷移の1%しか使用していないため、学習した報酬モデルは残りの99%の遷移に対して報酬を付与できることがわかった。
論文 参考訳(メタデータ) (2024-07-15T15:53:13Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILe(Reinforced Learning)は、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - RLeXplore: Accelerating Research in Intrinsically-Motivated Reinforcement Learning [50.55776190278426]
外部報酬は、特定のタスクにおける強化学習(RL)エージェントを効果的に導くことができる。
RLeXploreは,8つの最先端固有の報酬手法の信頼性のある実装を提供する,統一的で高度にモジュール化されたプラグイン・アンド・プレイ・フレームワークである。
論文 参考訳(メタデータ) (2024-05-29T22:23:20Z) - Accelerating Exploration with Unlabeled Prior Data [66.43995032226466]
我々は,報酬ラベルのない先行データを用いて,新たなスパース報酬タスクを解くエージェントの探索を指導し,加速する方法について検討する。
我々は、オンライン体験から報酬モデルを学び、ラベルのない事前データを楽観的な報酬でラベル付けし、ダウンストリームポリシーと批判最適化のためにオンラインデータと並行して使用する簡単なアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-09T00:05:17Z) - Self-supervised network distillation: an effective approach to exploration in sparse reward environments [0.0]
強化学習は、事前に設計された報酬関数に従って、エージェントが環境の中で振る舞うように訓練することができる。
そのような問題の解決策は、エージェントに情報的な探索を提供する本質的な動機を与えることであるかもしれない。
本稿では, 蒸留誤差に基づく本質的な動機づけアルゴリズムである自己教師ネットワーク蒸留(SND)を新規性指標として提示する。
論文 参考訳(メタデータ) (2023-02-22T18:58:09Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。