論文の概要: Few-shot Quality-Diversity Optimization
- arxiv url: http://arxiv.org/abs/2109.06826v3
- Date: Thu, 18 Jan 2024 19:12:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 19:50:25.123102
- Title: Few-shot Quality-Diversity Optimization
- Title(参考訳): 画質・多様性最適化
- Authors: Achkan Salehi, Alexandre Coninx, Stephane Doncieux
- Abstract要約: 品質多様性(QD)の最適化は、強化学習における知覚的最小値とスパース報酬を扱う上で効果的なツールであることが示されている。
本稿では,タスク分布の例から,パラメータ空間の最適化によって得られる経路の情報を利用して,未知の環境でQD手法を初期化する場合,数発の適応が可能であることを示す。
ロボット操作とナビゲーションベンチマークを用いて、疎密な報酬設定と密集した報酬設定の両方で実施された実験は、これらの環境でのQD最適化に必要な世代数を著しく削減することを示している。
- 参考スコア(独自算出の注目度): 50.337225556491774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the past few years, a considerable amount of research has been dedicated
to the exploitation of previous learning experiences and the design of Few-shot
and Meta Learning approaches, in problem domains ranging from Computer Vision
to Reinforcement Learning based control. A notable exception, where to the best
of our knowledge, little to no effort has been made in this direction is
Quality-Diversity (QD) optimization. QD methods have been shown to be effective
tools in dealing with deceptive minima and sparse rewards in Reinforcement
Learning. However, they remain costly due to their reliance on inherently
sample inefficient evolutionary processes. We show that, given examples from a
task distribution, information about the paths taken by optimization in
parameter space can be leveraged to build a prior population, which when used
to initialize QD methods in unseen environments, allows for few-shot
adaptation. Our proposed method does not require backpropagation. It is simple
to implement and scale, and furthermore, it is agnostic to the underlying
models that are being trained. Experiments carried in both sparse and dense
reward settings using robotic manipulation and navigation benchmarks show that
it considerably reduces the number of generations that are required for QD
optimization in these environments.
- Abstract(参考訳): 近年,コンピュータビジョンから強化学習に基づく制御に至るまでの課題領域において,過去の学習経験の活用とFew-shotおよびMeta Learningアプローチの設計に多大な研究が注がれている。
注目すべき例外は、私たちの知る限り、この方向への努力はほとんど、あるいはまったく行われていない、品質多様性(QD)の最適化です。
強化学習において,QD法は知覚的最小値とスパース報酬を扱う効果的なツールであることが示されている。
しかし、それらは本質的に非効率的な進化過程のサンプルに依存するため、コストがかかるままである。
タスク分布の例を考えると、パラメータ空間の最適化によって得られる経路に関する情報を、事前の人口構成に活用し、未発見の環境でqdメソッドを初期化する場合は、わずかなショット適応が可能となる。
提案手法はバックプロパゲーションを必要としない。
実装とスケールは簡単であり、さらに、トレーニング中の基盤となるモデルに非依存である。
ロボット操作とナビゲーションベンチマークを用いて、疎密な報酬設定と密集した報酬設定の両方で実施された実験は、これらの環境でのQD最適化に必要な世代数を著しく削減することを示している。
関連論文リスト
- Prompt Tuning with Diffusion for Few-Shot Pre-trained Policy Generalization [55.14484317645865]
我々は,オフライン強化学習タスクにおいて,例外的な品質向上を促す条件拡散モデルを構築した。
本稿では,Promptディフューザがプロンプトチューニングプロセスの堅牢かつ効果的なツールであることを示し,メタRLタスクにおいて高い性能を示す。
論文 参考訳(メタデータ) (2024-11-02T07:38:02Z) - No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - Can Learned Optimization Make Reinforcement Learning Less Difficult? [70.5036361852812]
学習の最適化が強化学習の難しさを克服するのに役立つかどうかを検討する。
本稿では, 塑性, 探索および非定常性のための学習最適化手法(OPEN)を用いて, 入力特性と出力構造がこれらの困難に対して予め提案された情報によって通知される更新規則をメタラーニングする。
論文 参考訳(メタデータ) (2024-07-09T17:55:23Z) - EsaCL: Efficient Continual Learning of Sparse Models [10.227171407348326]
連続的な学習設定の主な課題は、以前に学習したタスクを実行する方法を忘れずに、タスクのシーケンスを効率的に学習することである。
本研究では,モデルの予測力に悪影響を及ぼすことなく,冗長なパラメータを自動生成する,スパースモデル(EsaCL)の効率的な連続学習法を提案する。
論文 参考訳(メタデータ) (2024-01-11T04:59:44Z) - Zero-Shot Sharpness-Aware Quantization for Pre-trained Language Models [88.80146574509195]
量子化は、メモリオーバーヘッドを減らし、推論を加速するための有望なアプローチである。
種々のPLMのゼロショット量子化のための新しい量子化(ZSAQ)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T07:09:56Z) - Efficient Exploration using Model-Based Quality-Diversity with Gradients [4.788163807490196]
本稿では,モデルに基づく品質多様性アプローチを提案する。
既存のQD手法を拡張して、効率的な利用のために勾配を使い、効率的な探索のために想像において摂動を利用する。
提案手法は, 対外報酬を伴うタスクにおいて, 集団ベースアプローチの多様な探索能力を維持しつつ, サンプル効率と解の質を大幅に向上させることを実証する。
論文 参考訳(メタデータ) (2022-11-22T22:19:01Z) - Efficient Meta Reinforcement Learning for Preference-based Fast
Adaptation [17.165083095799712]
本研究では,ループ内強化学習の文脈における少数ショット適応の問題について検討する。
そこで我々は,嗜好に基づくフィードバックによる迅速なポリシー適応を実現するメタRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-11-20T03:55:09Z) - Neuroevolution is a Competitive Alternative to Reinforcement Learning
for Skill Discovery [12.586875201983778]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な制御タスクを解決するために神経ポリシーをトレーニングするための強力なパラダイムとして登場した。
品質多様性(QD)手法は,スキル発見のための情報理論強化RLの代替手段であることを示す。
論文 参考訳(メタデータ) (2022-10-06T11:06:39Z) - Squeezing Backbone Feature Distributions to the Max for Efficient
Few-Shot Learning [3.1153758106426603]
ラベル付きサンプルの少ない使用によって生じる不確実性のため、ほとんどショット分類が難しい問題である。
本稿では,特徴ベクトルをガウス分布に近づけるように処理するトランスファーベース手法を提案する。
また,学習中に未学習のサンプルが利用可能となる多段階的数ショット学習では,達成された性能をさらに向上させる最適なトランスポートインスピレーションアルゴリズムも導入する。
論文 参考訳(メタデータ) (2021-10-18T16:29:17Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。