Fugu-MT 論文翻訳(概要): Entropy-Aware Model Initialization for Effective Exploration in Deep Reinforcement Learning

論文の概要: Entropy-Aware Model Initialization for Effective Exploration in Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/2108.10533v1
Date: Tue, 24 Aug 2021 05:46:27 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-25 14:26:53.656830
Title: Entropy-Aware Model Initialization for Effective Exploration in Deep Reinforcement Learning
Title（参考訳）: 深層強化学習における効果的な探索のためのエントロピー・アウェアモデル初期化
Authors: Sooyoung Jang and Hyung-Il Kim
Abstract要約: 本研究では,初期エントロピーの影響について検討する。この調査にインスパイアされた我々は、効果的な探索のためのシンプルながら強力な学習戦略を考案した。提案手法は,学習失敗を著しく低減し,実験による性能,安定性,学習速度を向上することを示す。
参考スコア（独自算出の注目度）: 4.008558053828603
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Encouraging exploration is a critical issue in deep reinforcement learning. We investigate the effect of initial entropy that significantly influences the exploration, especially at the earlier stage. Our main observations are as follows: 1) low initial entropy increases the probability of learning failure, and 2) this initial entropy is biased towards a low value that inhibits exploration. Inspired by the investigations, we devise entropy-aware model initialization, a simple yet powerful learning strategy for effective exploration. We show that the devised learning strategy significantly reduces learning failures and enhances performance, stability, and learning speed through experiments.
Abstract（参考訳）: 深層学習における探索の促進は重要な問題である。初期エントロピーの影響について検討し,特に初期エントロピーの影響について検討した。 1) 初期エントロピーの低さは学習失敗の確率を増加させ, 2) この初期エントロピーは探索を阻害する低い値に向かって偏っている。本研究から着想を得たエントロピー対応モデル初期化は,効率的な探索のためのシンプルかつ強力な学習戦略である。提案する学習戦略は,学習失敗を著しく軽減し,実験によるパフォーマンス,安定性,学習速度を向上させる。

関連論文リスト

Trajectory Entropy Reinforcement Learning for Predictable and Robust Control [12.289021814766539]
強化学習におけるシンプルな政策に対する新たな帰納的バイアスを導入する。単純な帰納バイアスは、作用軌跡全体のエントロピーを最小化することによって導入される。学習方針がより循環的かつ一貫した行動軌跡を生み出すことを示す。
論文参考訳（メタデータ） (2025-05-07T07:41:29Z)
Reducing Action Space for Deep Reinforcement Learning via Causal Effect Estimation [15.684669299728743]
本研究では,行動の因果効果を推定し,探索効率を向上させる手法を提案する。まず、環境の事前知識として機能するために、逆ダイナミクスモデルを事前訓練する。各ステップでアクション空間全体にわたってアクションを分類し、各アクションの因果効果を推定し、冗長なアクションを抑制する。
論文参考訳（メタデータ） (2025-01-24T14:47:33Z)
Spurious Forgetting in Continual Learning of Language Models [20.0936011355535]
大規模言語モデル(LLM)の最近の進歩は、継続学習において複雑な現象を呈している。大規模な訓練にもかかわらず、モデルは大幅な性能低下を経験する。本研究では,このような性能低下が,真の知識喪失よりもタスクアライメントの低下を反映していることが示唆された。
論文参考訳（メタデータ） (2025-01-23T08:09:54Z)
T1: Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文参考訳（メタデータ） (2025-01-20T18:33:33Z)
Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective [77.94874338927492]
OpenAIは、o1の背後にある主要な技術は強化学習であると主張している。本稿では、強化学習の観点から、o1を達成するためのロードマップを分析する。
論文参考訳（メタデータ） (2024-12-18T18:24:47Z)
Fostering Intrinsic Motivation in Reinforcement Learning with Pretrained Foundation Models [8.255197802529118]
CLIPのような最近の基盤モデルの台頭は、事前訓練されたセマンティックにリッチな埋め込みを活用する機会を提供する。導入モジュールは、完全な状態情報を有効に活用することができ、サンプル効率を大幅に向上させることができる。基礎モデルによって提供される埋め込みは、トレーニング中にエージェントが構築したものよりも、時として優れていることを示す。
論文参考訳（メタデータ） (2024-10-09T20:05:45Z)
O1 Replication Journey: A Strategic Progress Report -- Part 1 [52.062216849476776]
本稿では,O1 Replication Journeyに具体化された人工知能研究の先駆的アプローチを紹介する。我々の方法論は、長期化したチームベースのプロジェクトの不規則性を含む、現代のAI研究における重要な課題に対処する。本稿では,モデルにショートカットだけでなく,完全な探索プロセスの学習を促す旅行学習パラダイムを提案する。
論文参考訳（メタデータ） (2024-10-08T15:13:01Z)
Variable-Agnostic Causal Exploration for Reinforcement Learning [56.52768265734155]
強化学習のための新しいフレームワークVACERL(Variable-Agnostic Causal Exploration for Reinforcement Learning)を導入する。本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。これらのステップを接続する因果グラフを構築し、エージェントをタスク完了に対する因果的影響の大きい観察-作用ペアへと導く。
論文参考訳（メタデータ） (2024-07-17T09:45:27Z)
Contrastive Initial State Buffer for Reinforcement Learning [25.849626996870526]
強化学習(Reinforcement Learning)では、探究と搾取のトレードオフは、限られたサンプルから効率的な学習を実現するための複雑な課題となる。本稿では,過去の経験から状態を戦略的に選択し,エージェントを環境に初期化するContrastive Initial State Bufferの概念を紹介する。環境に関する事前情報に頼ることなく、2つの複雑なロボットタスクに対するアプローチを検証する。
論文参考訳（メタデータ） (2023-09-18T13:26:40Z)
Deep Intrinsically Motivated Exploration in Continuous Control [0.0]
連続的なシステムでは、ネットワークのパラメータや選択されたアクションがランダムノイズによって乱されるような、間接的でない戦略によって探索が行われることが多い。我々は、動物モチベーションシステムに関する既存の理論を強化学習パラダイムに適応させ、新しい探究戦略を導入する。我々のフレームワークは、より大きく多様な状態空間に拡張し、ベースラインを劇的に改善し、間接的でない戦略を大幅に上回る。
論文参考訳（メタデータ） (2022-10-01T14:52:16Z)
Sample-Efficient Reinforcement Learning in the Presence of Exogenous Information [77.19830787312743]
実世界の強化学習アプリケーションでは、学習者の観察空間は、その課題に関する関連情報と無関係情報の両方でユビキタスに高次元である。本稿では,強化学習のための新しい問題設定法であるExogenous Decision Process (ExoMDP)を導入する。内因性成分の大きさのサンプル複雑度で準最適ポリシーを学習するアルゴリズムであるExoRLを提案する。
論文参考訳（メタデータ） (2022-06-09T05:19:32Z)
Intrinsically-Motivated Reinforcement Learning: A Brief Introduction [0.0]
強化学習(Reinforcement Learning, RL)は、機械学習の3つの基本パラダイムの1つである。本稿では,RLにおける探査改善の問題点を考察し,本質的な動機付け型RLを導入した。
論文参考訳（メタデータ） (2022-03-03T12:39:58Z)
Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。 VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文参考訳（メタデータ） (2021-07-27T16:39:45Z)
On Learning the Geodesic Path for Incremental Learning [38.222736913855115]
ニューラルネットワークは、新しい知識を獲得する際に過去の知識を忘れる現象である壊滅的な忘れの問題にひどく苦しんでいます。破滅的な忘れを克服することは「漸進的学習」の過程をエミュレートする上で重要なことである増分学習のための最先端の技術は、壊滅的な忘れ物を防ぐための知識蒸留を利用します。
論文参考訳（メタデータ） (2021-04-17T15:26:34Z)
Self-supervised Knowledge Distillation for Few-shot Learning [123.10294801296926]
少数のサンプルだけで秩序分布から素早く学習できるため、ショットラーニングは有望な学習パラダイムである。数ショットの学習タスクにおいて,深層ニューラルネットワークの表現能力を向上させるための簡単な手法を提案する。実験により、第一段階においても、自己超越は現在の最先端手法より優れていることが示された。
論文参考訳（メタデータ） (2020-06-17T11:27:00Z)
Understanding the Role of Training Regimes in Continual Learning [51.32945003239048]
破滅的な忘れは、ニューラルネットワークのトレーニングに影響を与え、複数のタスクを逐次学習する能力を制限する。本研究では,タスクの局所的なミニマを拡大するトレーニング体制の形成に及ぼすドロップアウト,学習速度の低下,バッチサイズの影響について検討した。
論文参考訳（メタデータ） (2020-06-12T06:00:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。