Fugu-MT 論文翻訳(概要): General policy mapping: online continual reinforcement learning inspired on the insect brain

論文の概要: General policy mapping: online continual reinforcement learning inspired on the insect brain

arxiv url: http://arxiv.org/abs/2211.16759v1
Date: Wed, 30 Nov 2022 05:54:19 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-01 15:56:11.871474
Title: General policy mapping: online continual reinforcement learning inspired on the insect brain
Title（参考訳）: 一般政策マッピング:昆虫脳に触発されたオンライン連続的強化学習
Authors: Angel Yanguas-Gil, Sandeep Madireddy
Abstract要約: 我々は,昆虫の脳に触発されたオンライン連続的・生涯強化学習モデルを開発した。提案モデルは,オンライン環境におけるRLアルゴリズムの収束を可能にするために,特徴抽出と共通ポリシーレイヤのオフライントレーニングを利用する。
参考スコア（独自算出の注目度）: 3.8937756915387505
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We have developed a model for online continual or lifelong reinforcement learning (RL) inspired on the insect brain. Our model leverages the offline training of a feature extraction and a common general policy layer to enable the convergence of RL algorithms in online settings. Sharing a common policy layer across tasks leads to positive backward transfer, where the agent continuously improved in older tasks sharing the same underlying general policy. Biologically inspired restrictions to the agent's network are key for the convergence of RL algorithms. This provides a pathway towards efficient online RL in resource-constrained scenarios.
Abstract（参考訳）: 我々は,昆虫脳にインスパイアされたオンライン連続的あるいは生涯強化学習(rl)モデルを開発した。提案モデルは,オンライン環境におけるRLアルゴリズムの収束を可能にするために,特徴抽出と共通ポリシーレイヤのオフライントレーニングを利用する。タスク間で共通ポリシー層を共有することは、エージェントが同じ基本方針を共有する古いタスクにおいて継続的に改善する、ポジティブな下位転送につながる。エージェントのネットワークに対する生物学的にインスパイアされた制限は、RLアルゴリズムの収束の鍵となる。これにより、リソース制約のあるシナリオにおける効率的なオンラインRLへの経路を提供する。

関連論文リスト

RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.65034908728828]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文参考訳（メタデータ） (2025-04-24T17:57:08Z)
Expert-Free Online Transfer Learning in Multi-Agent Reinforcement Learning [0.0]
Transfer Learning(TL)は、未知のタスクを扱うエージェントの学習複雑性を低減することを目的としている。他のタスクやエージェントからの外部知識を使用することで、学習プロセスを強化することができる。これは、学習モデルに必要な新しい情報の量を減らすことで達成され、結果として全体の収束時間が短縮される。
論文参考訳（メタデータ） (2025-01-26T11:53:18Z)
Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone [72.17534881026995]
ポリシーに依存しないRL(PA-RL)と呼ばれるオフラインおよびオンラインの微調整手法を開発する。オンラインRLファインチューニングアルゴリズムであるCal-QLを用いて、7BジェネラリストロボットポリシーであるOpenVLAのファインチューニングに成功した最初の結果を示す。
論文参考訳（メタデータ） (2024-12-09T17:28:03Z)
Unsupervised-to-Online Reinforcement Learning [59.910638327123394]
Unsupervised-to-online RL (U2O RL) は、ドメイン固有の教師なしオフラインRLを非教師なしオフラインRLに置き換える。 U2O RLは、複数の下流タスクのために訓練済みのモデルを再利用できるだけでなく、より良い表現も学べる。 U2O RLは、従来のオフライン-オフラインのRLアプローチにマッチしたり、さらに性能が優れていることを実証的に実証する。
論文参考訳（メタデータ） (2024-08-27T05:23:45Z)
Supplementing Gradient-Based Reinforcement Learning with Simple Evolutionary Ideas [4.873362301533824]
我々は、強化学習(RL)における大規模だが指向的な学習ステップを導入するための、単純でサンプル効率のよいアルゴリズムを提案する。この手法では、共通経験バッファを持つRLエージェントの集団を用いて、ポリシー空間を効率的に探索するために、エージェントのクロスオーバーと突然変異を行う。
論文参考訳（メタデータ） (2023-05-10T09:46:53Z)
Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。 ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文参考訳（メタデータ） (2022-10-17T16:34:01Z)
Entropy Regularized Reinforcement Learning with Cascading Networks [9.973226671536041]
Deep RLは関数近似器としてニューラルネットワークを使用する。 RLの大きな難しさの1つは、i.i.d.データの欠如である。本研究では,ニューラルネットワークを用いた教師なし学習コミュニティの共通実践に挑戦する。
論文参考訳（メタデータ） (2022-10-16T10:28:59Z)
Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文参考訳（メタデータ） (2022-09-24T14:22:29Z)
Beyond Tabula Rasa: Reincarnating Reinforcement Learning [37.201451908129386]
タブララ・ラサの学習は、事前の知識がなければ、強化学習(RL)研究における一般的なワークフローである。我々は、RLエージェントの設計イテレーション間で事前の計算作業を再利用または転送するワークフローとして、RLを再導入する。既存のアプローチはこの設定で失敗し、それらの制限に対処するための単純なアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-06-03T15:11:10Z)
Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-04-05T17:25:22Z)
Behavioral Priors and Dynamics Models: Improving Performance and Domain Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。 MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文参考訳（メタデータ） (2021-06-16T20:48:49Z)
FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文参考訳（メタデータ） (2020-10-02T17:13:39Z)
MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文参考訳（メタデータ） (2020-05-27T08:46:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。