Fugu-MT 論文翻訳(概要): Improving Intrinsic Exploration by Creating Stationary Objectives

論文の概要: Improving Intrinsic Exploration by Creating Stationary Objectives

arxiv url: http://arxiv.org/abs/2310.18144v2
Date: Fri, 3 Nov 2023 00:02:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-06 16:36:59.417131
Title: Improving Intrinsic Exploration by Creating Stationary Objectives
Title（参考訳）: 定常目標作成による内在的探索の改善
Authors: Roger Creus Castanyer, Joshua Romoff, Glen Berseth
Abstract要約: 本稿では,カウントベース法から導かれる固有報酬関数が非定常であることを示す。私たちの研究の重要な貢献は、拡張された状態表現を通じて、元の非定常的な報酬を定常的な報酬に変換することである。実験の結果,SOFEは探索問題に挑戦するエージェントの性能を向上させることがわかった。
参考スコア（独自算出の注目度）: 11.358734746614797
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Exploration bonuses in reinforcement learning guide long-horizon exploration by defining custom intrinsic objectives. Count-based methods use the frequency of state visits to derive an exploration bonus. In this paper, we identify that any intrinsic reward function derived from count-based methods is non-stationary and hence induces a difficult objective to optimize for the agent. The key contribution of our work lies in transforming the original non-stationary rewards into stationary rewards through an augmented state representation. For this purpose, we introduce the Stationary Objectives For Exploration (SOFE) framework. SOFE requires identifying sufficient statistics for different exploration bonuses and finding an efficient encoding of these statistics to use as input to a deep network. SOFE is based on proposing state augmentations that expand the state space but hold the promise of simplifying the optimization of the agent's objective. Our experiments show that SOFE improves the agents' performance in challenging exploration problems, including sparse-reward tasks, pixel-based observations, 3D navigation, and procedurally generated environments.
Abstract（参考訳）: 特注的目標の定義による強化学習ガイドの長期探索における探索ボーナスカウントベースの方法は、国家訪問の頻度を使って探索ボーナスを導出する。本稿では,カウントベース法から導出される固有報酬関数が非定常であることから,エージェントの最適化が困難であることを示す。我々の研究の重要な貢献は、拡張状態表現を通じて、元の非定常報酬を定常報酬に変換することである。そこで本研究では,SOFE(Stationary Objectives For Exploration)フレームワークについて紹介する。 SOFEは、異なる探索ボーナスに対する十分な統計を識別し、深層ネットワークへの入力として使用するためにこれらの統計の効率的な符号化を見つける必要がある。 SOFEは状態空間を拡大するが、エージェントの目的の最適化を単純化するという約束を守る状態拡張の提案に基づいている。実験の結果, sofeは, スパースリワードタスク, ピクセルベースの観測, 3次元ナビゲーション, 手続き的生成環境など, 探索課題におけるエージェントの性能が向上した。

関連論文リスト

On Efficient Bayesian Exploration in Model-Based Reinforcement Learning [0.24578723416255752]
本研究では,本質的なモチベーションに対する既存の原理的情報理論的アプローチを検証し,強化学習におけるデータ効率探索の課題に対処する。探索ボーナスは,環境のダイナミクスや報奨について十分な確証が得られたら,自然に疫学情報を得て,0に収束することを示す。次に、モデルに基づく計画と情報理論的なボーナスを統合して、サンプル効率のよい深層探査を実現する、予測軌道サンプリングとベイズ探索(PTS-BE)という一般的なフレームワークの概要を示す。
論文参考訳（メタデータ） (2025-07-03T14:03:47Z)
Online Feedback Efficient Active Target Discovery in Partially Observable Environments [24.34531421163472]
Diffusion-guided Active Target Discovery (DiffATD) は、拡散力学を有効ターゲット発見に活用する新しい手法である。 DiffATDは、固定されたサンプリング予算内で部分的に観測可能な環境で効率的なターゲット発見を可能にする。我々は,DiffATDがベースラインよりもはるかに優れた性能を示し,完全な環境観測性の下で動作する教師付き手法と競合することを示した。
論文参考訳（メタデータ） (2025-05-10T06:50:01Z)
Beyond the Destination: A Novel Benchmark for Exploration-Aware Embodied Question Answering [87.76784654371312]
Embodied Question Answeringでは、エージェントが動的に3D環境を探索し、視覚情報を積極的に収集し、質問に答えるために多段階の推論を行う必要がある。既存のデータセットはしばしばバイアスや事前の知識を導入し、非身体的推論につながる。探索能力と推論能力の両方を評価するために特別に設計された最大のデータセットを構築します。
論文参考訳（メタデータ） (2025-03-14T06:29:47Z)
Every SAM Drop Counts: Embracing Semantic Priors for Multi-Modality Image Fusion and Beyond [52.486290612938895]
本稿では,Segment Anything Model (SAM) のセグメンテーションモデルからのセグメンテーション知識を利用して,融合結果の質を向上し,下流タスク適応性を実現する手法を提案する。具体的には、SAMから高レベルなセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・アテンション(SPA)モジュールを抽出し、永続リポジトリを介してソース情報を効率的に保持する。本手法は,実運用効率を維持しつつ,高品質な視覚結果と下流タスク適応性のバランスを実現する。
論文参考訳（メタデータ） (2025-03-03T06:16:31Z)
MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization [91.80034860399677]
強化学習アルゴリズムは、現在のベスト戦略の活用と、より高い報酬につながる可能性のある新しいオプションの探索のバランスを図ることを目的としている。我々は本質的な探索と外生的な探索のバランスをとるためのフレームワークMaxInfoRLを紹介する。提案手法は,マルチアームバンディットの簡易な設定において,サブリニアな後悔を実現するものである。
論文参考訳（メタデータ） (2024-12-16T18:59:53Z)
Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。 RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。 AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文参考訳（メタデータ） (2024-07-18T17:55:22Z)
Successor-Predecessor Intrinsic Exploration [18.440869985362998]
本研究は,内因性報酬を用いた探索に焦点を当て,エージェントが自己生成型内因性報酬を用いて外因性報酬を過渡的に増強する。本研究では,先進情報と振り返り情報を組み合わせた新たな固有報酬に基づく探索アルゴリズムSPIEを提案する。本研究は,SPIEが競合する手法よりも少ない報酬とボトルネック状態の環境において,より効率的かつ倫理的に妥当な探索行動をもたらすことを示す。
論文参考訳（メタデータ） (2023-05-24T16:02:51Z)
Discrete Factorial Representations as an Abstraction for Goal Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文参考訳（メタデータ） (2022-11-01T03:31:43Z)
Entropy Augmented Reinforcement Learning [0.0]
我々は,最適下から脱出する能力を探求し,強化するために,移動型マルコフ決定プロセス(MDP)を提案する。実験では,MuJoCoベンチマークタスクにおけるTRPOとPPOの強化実験を行い,エージェントがより高い報酬領域に向けてハートアップされていることを示す。
論文参考訳（メタデータ） (2022-08-19T13:09:32Z)
On Reward-Free RL with Kernel and Neural Function Approximations: Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文参考訳（メタデータ） (2021-10-19T07:26:33Z)
MADE: Exploration via Maximizing Deviation from Explored Regions [48.49228309729319]
オンライン強化学習(RL)では、高次元環境における効率的な探索は依然として困難であり、報酬は少ない。調査地域からの次の政策の逸脱を最大化することによる新たな探索手法を提案する。提案手法は,最先端手法よりもサンプル効率を著しく向上させる。
論文参考訳（メタデータ） (2021-06-18T17:57:00Z)
Camouflaged Object Segmentation with Distraction Mining [23.77915054363188]
camouflaged object segmentation (cos) は、周囲に「完全に」同化している物体を識別することを目的としている。本研究では,自然界における捕食の過程を模倣したバイオインスパイアされたPFNet(Placeing and Focus Network)を開発した。当社のPFNetは、リアルタイム(72 FPS)で動作し、3つの挑戦的なデータセットで18の最先端のモデルを大幅に上回ります。
論文参考訳（メタデータ） (2021-04-21T11:47:59Z)
Efficient Exploration of Reward Functions in Inverse Reinforcement Learning via Bayesian Optimization [43.51553742077343]
逆強化学習(IRL)は、価値アライメントやデモからのロボット学習など、さまざまなタスクに関係している。本稿では,ベイズ最適化IRL(BO-IRL)と呼ばれるIRLフレームワークを提案する。
論文参考訳（メタデータ） (2020-11-17T10:17:45Z)
Learning to Plan Optimistically: Uncertainty-Guided Deep Exploration via Latent Model Ensembles [73.15950858151594]
本稿では,不確実な長期報酬に直面した最適化による深層探査を可能にするLOVE(Latent Optimistic Value Exploration)を提案する。潜在世界モデルと値関数推定を組み合わせ、無限水平リターンを予測し、アンサンブルにより関連する不確実性を回復する。連続行動空間における視覚ロボット制御タスクにLOVEを適用し、最先端や他の探査目標と比較して、平均20%以上のサンプル効率の改善を実証する。
論文参考訳（メタデータ） (2020-10-27T22:06:57Z)
Exploration by Maximizing R\'enyi Entropy for Reward-Free RL Framework [28.430845498323745]
我々は、搾取から探索を分離する報酬のない強化学習フレームワークを検討する。探索段階において、エージェントは、報酬のない環境と相互作用して探索ポリシーを学習する。計画段階では、エージェントはデータセットに基づいて報酬関数の適切なポリシーを算出する。
論文参考訳（メタデータ） (2020-06-11T05:05:31Z)
Maximizing Information Gain in Partially Observable Environments via Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。負のエントロピーと予測される予測報酬の正確な誤差を導出する。この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文参考訳（メタデータ） (2020-05-11T08:13:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。