Fugu-MT 論文翻訳(概要): Information Content Exploration

論文の概要: Information Content Exploration

arxiv url: http://arxiv.org/abs/2310.06777v1
Date: Tue, 10 Oct 2023 16:51:32 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-11 14:38:27.986722
Title: Information Content Exploration
Title（参考訳）: 情報コンテンツ探索
Authors: Jacob Chmura, Hasham Burhani, Xiao Qi Shi
Abstract要約: 本稿では,探索行動の体系的定量化と状態カバレッジの促進を図った本質的な報奨を提案する。情報理論的報酬は,様々なゲームにおいて,効率的な探索や性能向上をもたらすことを示す。
参考スコア（独自算出の注目度）: 1.7034813545878589
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Sparse reward environments are known to be challenging for reinforcement learning agents. In such environments, efficient and scalable exploration is crucial. Exploration is a means by which an agent gains information about the environment. We expand on this topic and propose a new intrinsic reward that systemically quantifies exploratory behavior and promotes state coverage by maximizing the information content of a trajectory taken by an agent. We compare our method to alternative exploration based intrinsic reward techniques, namely Curiosity Driven Learning and Random Network Distillation. We show that our information theoretic reward induces efficient exploration and outperforms in various games, including Montezuma Revenge, a known difficult task for reinforcement learning. Finally, we propose an extension that maximizes information content in a discretely compressed latent space which boosts sample efficiency and generalizes to continuous state spaces.
Abstract（参考訳）: スパース報酬環境は強化学習エージェントにとって困難であることが知られている。このような環境では、効率的でスケーラブルな探索が重要である。探索とは、エージェントが環境に関する情報を取得する手段である。本稿では,探索的行動の体系的定量化と,エージェントが取得する軌道の情報内容の最大化による状態被覆の促進を目的とした,新たな内在的報酬を提案する。本手法を,好奇心駆動学習とランダムネットワーク蒸留という,内在的報酬技術に基づく代替探索手法と比較した。情報理論的報酬は,モンテズマ・リベンジ(モンテズマ・リベンジ)など,多種多様なゲームにおいて,効率的な探索と成果をもたらすことを示す。最後に, 離散圧縮された潜在空間における情報内容を最大化し, サンプル効率を高め, 連続状態空間に一般化する拡張を提案する。

関連論文リスト

On Efficient Bayesian Exploration in Model-Based Reinforcement Learning [0.24578723416255752]
本研究では,本質的なモチベーションに対する既存の原理的情報理論的アプローチを検証し,強化学習におけるデータ効率探索の課題に対処する。探索ボーナスは,環境のダイナミクスや報奨について十分な確証が得られたら,自然に疫学情報を得て,0に収束することを示す。次に、モデルに基づく計画と情報理論的なボーナスを統合して、サンプル効率のよい深層探査を実現する、予測軌道サンプリングとベイズ探索(PTS-BE)という一般的なフレームワークの概要を示す。
論文参考訳（メタデータ） (2025-07-03T14:03:47Z)
An Information-Geometric Approach to Artificial Curiosity [49.1574468325115]
具体的報酬はエージェントの環境情報に依存し,情報の表現に留まるべきであることを示す。共役マルコフ型とエージェント-環境相互作用の下での不変性は、相互占有の関数を包含するために固有の報酬を一意に制約する。このフレームワークは、基礎的な探索手法を単一の凝集モデルに統合しながら、本質的な報酬のエンジニアリングに重要な制約を提供する。
論文参考訳（メタデータ） (2025-04-08T18:04:15Z)
MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization [91.80034860399677]
強化学習アルゴリズムは、現在のベスト戦略の活用と、より高い報酬につながる可能性のある新しいオプションの探索のバランスを図ることを目的としている。我々は本質的な探索と外生的な探索のバランスをとるためのフレームワークMaxInfoRLを紹介する。提案手法は,マルチアームバンディットの簡易な設定において,サブリニアな後悔を実現するものである。
論文参考訳（メタデータ） (2024-12-16T18:59:53Z)
Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。 RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。 AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文参考訳（メタデータ） (2024-07-18T17:55:22Z)
Exploration Unbound [26.27811928866858]
シーケンシャルな意思決定エージェントは、新しい知識を得るための探索と、現在の知識を活用して即時報酬を最大限にするためにバランスをとる。このような複雑な環境の単純で簡潔な例を示します。この環境では、報酬は非有界であり、エージェントは常に、より多くのことを学ぶことで報酬が蓄積される率を高めることができる。
論文参考訳（メタデータ） (2024-07-16T21:14:43Z)
WESE: Weak Exploration to Strong Exploitation for LLM Agents [95.6720931773781]
本稿では,オープンワールド対話型タスクの解法において,LLMエージェントの強化を目的としたWeak Exploration to Strong Exploitation (WESE)を提案する。 WESEは、探究と搾取のプロセスを分離し、費用対効果の弱いエージェントを用いて世界的知識の探索を行う。次に、獲得した知識を格納し、タスク関連知識を抽出する知識グラフベースの戦略を導入する。
論文参考訳（メタデータ） (2024-04-11T03:31:54Z)
On the Importance of Exploration for Generalization in Reinforcement Learning [89.63074327328765]
本研究では,不確実性の高い状態の探索を支援する方法であるEDE: Exploration via Distributional Ensembleを提案する。当社のアルゴリズムは,ProcgenとCrafterの両面で最先端を実現するための,最初のバリューベースアプローチである。
論文参考訳（メタデータ） (2023-06-08T18:07:02Z)
Successor-Predecessor Intrinsic Exploration [18.440869985362998]
本研究は,内因性報酬を用いた探索に焦点を当て,エージェントが自己生成型内因性報酬を用いて外因性報酬を過渡的に増強する。本研究では,先進情報と振り返り情報を組み合わせた新たな固有報酬に基づく探索アルゴリズムSPIEを提案する。本研究は,SPIEが競合する手法よりも少ない報酬とボトルネック状態の環境において,より効率的かつ倫理的に妥当な探索行動をもたらすことを示す。
論文参考訳（メタデータ） (2023-05-24T16:02:51Z)
Self-supervised Sequential Information Bottleneck for Robust Exploration in Deep Reinforcement Learning [28.75574762244266]
本研究では、圧縮された時間的コヒーレントな表現を学習するためのシーケンシャルな情報ボトルネックの目標について紹介する。ノイズの多い環境での効率的な探索のために,タスク関連状態の新規性を捉える本質的な報奨を更に構築する。
論文参考訳（メタデータ） (2022-09-12T15:41:10Z)
GAN-based Intrinsic Exploration For Sample Efficient Reinforcement Learning [0.0]
本稿では,観測状態の分布を学習し,分布外である状態に対して高い確率で計算される固有報酬を送信する。我々はスーパーマリオブラザーズでの報酬設定を無報酬で評価し、モンテズマの復讐設定を軽度に評価し、我々のアプローチが実際に効率的に探索可能であることを示す。
論文参考訳（メタデータ） (2022-06-28T19:16:52Z)
Follow your Nose: Using General Value Functions for Directed Exploration in Reinforcement Learning [5.40729975786985]
本稿では,汎用価値関数(GVF)と有向探索戦略を用いて,探索と補助的タスク学習を組み合わせることを提案する。 3つのナビゲーションタスクにおいて、手作業ではなく選択肢(アクションのシーケンス)を学習し、パフォーマンス上の優位性を実証する簡単な方法を提供する。
論文参考訳（メタデータ） (2022-03-02T05:14:11Z)
Information is Power: Intrinsic Control via Information Capture [110.3143711650806]
我々は,潜時状態空間モデルを用いて推定したエージェントの状態訪問のエントロピーを最小化する,コンパクトで汎用的な学習目的を論じる。この目的は、不確実性の低減に対応する環境情報収集と、将来の世界状態の予測不可能性の低減に対応する環境制御の両方をエージェントに誘導する。
論文参考訳（メタデータ） (2021-12-07T18:50:42Z)
Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文参考訳（メタデータ） (2021-09-21T13:47:04Z)
Focus on Impact: Indoor Exploration with Intrinsic Motivation [45.97756658635314]
そこで本研究では,純粋に本質的な報酬信号を用いたモデルによる探索指導を提案する。ニューラルベース密度モデルを含み、従来のカウントベースの正規化を、以前に訪れた状態の擬似数で置き換える。また,提案手法を取り入れたロボットが,ポイントゴールナビゲーションや実世界展開にシームレスに適応することを示す。
論文参考訳（メタデータ） (2021-09-14T18:00:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。