Fugu-MT 論文翻訳(概要): Efficient Exploration using Model-Based Quality-Diversity with Gradients

論文の概要: Efficient Exploration using Model-Based Quality-Diversity with Gradients

arxiv url: http://arxiv.org/abs/2211.12610v1
Date: Tue, 22 Nov 2022 22:19:01 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-24 13:26:54.043749
Title: Efficient Exploration using Model-Based Quality-Diversity with Gradients
Title（参考訳）: 勾配を用いたモデルベース品質多様性を用いた効率的な探索
Authors: Bryan Lim, Manon Flageat, Antoine Cully
Abstract要約: 本稿では,モデルに基づく品質多様性アプローチを提案する。既存のQD手法を拡張して、効率的な利用のために勾配を使い、効率的な探索のために想像において摂動を利用する。提案手法は, 対外報酬を伴うタスクにおいて, 集団ベースアプローチの多様な探索能力を維持しつつ, サンプル効率と解の質を大幅に向上させることを実証する。
参考スコア（独自算出の注目度）: 4.788163807490196
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Exploration is a key challenge in Reinforcement Learning, especially in long-horizon, deceptive and sparse-reward environments. For such applications, population-based approaches have proven effective. Methods such as Quality-Diversity deals with this by encouraging novel solutions and producing a diversity of behaviours. However, these methods are driven by either undirected sampling (i.e. mutations) or use approximated gradients (i.e. Evolution Strategies) in the parameter space, which makes them highly sample-inefficient. In this paper, we propose a model-based Quality-Diversity approach. It extends existing QD methods to use gradients for efficient exploitation and leverage perturbations in imagination for efficient exploration. Our approach optimizes all members of a population simultaneously to maintain both performance and diversity efficiently by leveraging the effectiveness of QD algorithms as good data generators to train deep models. We demonstrate that it maintains the divergent search capabilities of population-based approaches on tasks with deceptive rewards while significantly improving their sample efficiency and quality of solutions.
Abstract（参考訳）: 探索は強化学習において重要な課題であり、特に長期ホリゾン、偽装、疎弱な環境においてである。このような用途では、人口ベースのアプローチが有効であることが証明されている。品質多様性のような手法は、新しい解決策を奨励し、行動の多様性を生み出すことによってこれに対処する。しかし、これらの手法は無向サンプリング(突然変異)またはパラメータ空間における近似勾配(進化戦略)によって駆動されるため、非常にサンプル効率が低下する。本稿では,モデルに基づく品質多様性アプローチを提案する。既存のQD手法を拡張して、効率的な利用のために勾配を使い、効率的な探索のために想像において摂動を利用する。本手法では,qdアルゴリズムの有効性をデータジェネレータとして活用し,集団のすべてのメンバを同時に最適化し,パフォーマンスと多様性を効率的に維持する。提案手法は,提案手法の多種多様な探索能力を維持しつつ,そのサンプル効率と解の質を著しく向上させることを実証する。

関連論文リスト

Efficient Code LLM Training via Distribution-Consistent and Diversity-Aware Data Selection [29.647174797769015]
本稿では,トレーニング効率とモデル性能の両方を改善することを目的とした,パラメトリックモデルを用いたコードデータ選択手法を提案する。提案手法は,92K以上の全サンプリングベースラインに対して2.4% (HumanEval) と2.3% (MBPP) のゲインを達成し,他のサンプリング手法よりも性能と効率が優れている。
論文参考訳（メタデータ） (2025-07-03T07:19:56Z)
Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文参考訳（メタデータ） (2025-05-13T16:47:00Z)
Robot Deformable Object Manipulation via NMPC-generated Demonstrations in Deep Reinforcement Learning [13.30562217252464]
実演強化学習(RL)に基づくロボットによる変形可能な物体操作の研究を行う。 RLの学習効率を向上させるため,複数の側面からの実演データの利用を向上し,HGCR-DDPGアルゴリズムを提案する。新規な高次元ファジィ手法を用いて、ポイント選択を把握し、レインボーDDPGにおけるデータ駆動学習を強化するための洗練された行動閉鎖法と、シーケンシャルなポリシー学習戦略を用いる。
論文参考訳（メタデータ） (2025-02-17T02:41:46Z)
Adaptive teachers for amortized samplers [76.88721198565861]
償却推論(英: Amortized inference)とは、ニューラルネットワークなどのパラメトリックモデルをトレーニングし、正確なサンプリングが可能な所定の非正規化密度で分布を近似するタスクである。オフ・ポリティクスのRLトレーニングは多様でハイ・リワードな候補の発見を促進するが、既存の手法は依然として効率的な探索の課題に直面している。そこで本研究では,高次領域の優先順位付けにより,初等補正標本作成者(学生)の指導を指導する適応学習分布(教師)を提案する。
論文参考訳（メタデータ） (2024-10-02T11:33:13Z)
On the Robustness of Fully-Spiking Neural Networks in Open-World Scenarios using Forward-Only Learning Algorithms [6.7236795813629]
我々はフォワードフォワードアルゴリズム(FFA)を用いたOoD(Out-of-Distribution)検出のための新しいアルゴリズムを開発した。提案手法は, 標本の潜在表現からクラス表現多様体への距離を用いて, 分布内(ID)データに属するサンプルの確率を測定する。また,任意のクラスの分布から遠ざかるサンプルの特徴を強調表示するグラデーションフリー属性手法を提案する。
論文参考訳（メタデータ） (2024-07-19T08:08:17Z)
Distributionally Robust Model-based Reinforcement Learning with Large State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文参考訳（メタデータ） (2023-09-05T13:42:11Z)
Learning Better with Less: Effective Augmentation for Sample-Efficient Visual Reinforcement Learning [57.83232242068982]
データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
論文参考訳（メタデータ） (2023-05-25T15:46:20Z)
Efficient Methods for Natural Language Processing: A Survey [76.34572727185896]
本研究は, 効率的なNLPにおける現在の手法と知見を合成し, 関連づけるものである。我々は,限られた資源下でNLPを実施するためのガイダンスと,より効率的な手法を開発するための有望な研究方向性の両立を目指す。
論文参考訳（メタデータ） (2022-08-31T20:32:35Z)
Sample-Efficient, Exploration-Based Policy Optimisation for Routing Problems [2.6782615615913348]
本稿では,エントロピーに基づく新しい強化学習手法を提案する。さらに、我々は、期待したリターンを最大化する、政治以外の強化学習手法を設計する。我々のモデルは様々な経路問題に一般化可能であることを示す。
論文参考訳（メタデータ） (2022-05-31T09:51:48Z)
Few-shot Quality-Diversity Optimization [50.337225556491774]
品質多様性(QD)の最適化は、強化学習における知覚的最小値とスパース報酬を扱う上で効果的なツールであることが示されている。本稿では,タスク分布の例から,パラメータ空間の最適化によって得られる経路の情報を利用して,未知の環境でQD手法を初期化する場合,数発の適応が可能であることを示す。ロボット操作とナビゲーションベンチマークを用いて、疎密な報酬設定と密集した報酬設定の両方で実施された実験は、これらの環境でのQD最適化に必要な世代数を著しく削減することを示している。
論文参考訳（メタデータ） (2021-09-14T17:12:20Z)
Online reinforcement learning with sparse rewards through an active inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文参考訳（メタデータ） (2021-06-04T10:03:36Z)
DEALIO: Data-Efficient Adversarial Learning for Imitation from Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。よりデータ効率の高いifOアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-31T23:46:32Z)
Fast and stable MAP-Elites in noisy domains using deep grids [1.827510863075184]
Deep-Grid MAP-ElitesはMAP-Elitesアルゴリズムの変種である。この単純なアプローチは、適合性最適化の観点から競争性能を達成しつつ、動作記述子のノイズに対する耐性が著しく高いことを示す。
論文参考訳（メタデータ） (2020-06-25T08:47:23Z)
Diversity Policy Gradient for Sample Efficient Quality-Diversity Optimization [7.8499505363825755]
多様性とパフォーマンスを両立させることは、探索・探索のトレードオフに対処するための便利な方法である。本稿では、ポリシーグラディエントアルゴリズムと品質多様性アプローチの強みを組み合わせた新しいアルゴリズムQDPGを提案する。
論文参考訳（メタデータ） (2020-06-15T16:04:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。