Fugu-MT 論文翻訳(概要): Few-shot Quality-Diversity Optimization

論文の概要: Few-shot Quality-Diversity Optimization

arxiv url: http://arxiv.org/abs/2109.06826v3
Date: Thu, 18 Jan 2024 19:12:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-22 19:50:25.123102
Title: Few-shot Quality-Diversity Optimization
Title（参考訳）: 画質・多様性最適化
Authors: Achkan Salehi, Alexandre Coninx, Stephane Doncieux
Abstract要約: 品質多様性(QD)の最適化は、強化学習における知覚的最小値とスパース報酬を扱う上で効果的なツールであることが示されている。本稿では,タスク分布の例から,パラメータ空間の最適化によって得られる経路の情報を利用して,未知の環境でQD手法を初期化する場合,数発の適応が可能であることを示す。ロボット操作とナビゲーションベンチマークを用いて、疎密な報酬設定と密集した報酬設定の両方で実施された実験は、これらの環境でのQD最適化に必要な世代数を著しく削減することを示している。
参考スコア（独自算出の注目度）: 50.337225556491774
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the past few years, a considerable amount of research has been dedicated to the exploitation of previous learning experiences and the design of Few-shot and Meta Learning approaches, in problem domains ranging from Computer Vision to Reinforcement Learning based control. A notable exception, where to the best of our knowledge, little to no effort has been made in this direction is Quality-Diversity (QD) optimization. QD methods have been shown to be effective tools in dealing with deceptive minima and sparse rewards in Reinforcement Learning. However, they remain costly due to their reliance on inherently sample inefficient evolutionary processes. We show that, given examples from a task distribution, information about the paths taken by optimization in parameter space can be leveraged to build a prior population, which when used to initialize QD methods in unseen environments, allows for few-shot adaptation. Our proposed method does not require backpropagation. It is simple to implement and scale, and furthermore, it is agnostic to the underlying models that are being trained. Experiments carried in both sparse and dense reward settings using robotic manipulation and navigation benchmarks show that it considerably reduces the number of generations that are required for QD optimization in these environments.
Abstract（参考訳）: 近年,コンピュータビジョンから強化学習に基づく制御に至るまでの課題領域において,過去の学習経験の活用とFew-shotおよびMeta Learningアプローチの設計に多大な研究が注がれている。注目すべき例外は、私たちの知る限り、この方向への努力はほとんど、あるいはまったく行われていない、品質多様性(QD)の最適化です。強化学習において,QD法は知覚的最小値とスパース報酬を扱う効果的なツールであることが示されている。しかし、それらは本質的に非効率的な進化過程のサンプルに依存するため、コストがかかるままである。タスク分布の例を考えると、パラメータ空間の最適化によって得られる経路に関する情報を、事前の人口構成に活用し、未発見の環境でqdメソッドを初期化する場合は、わずかなショット適応が可能となる。提案手法はバックプロパゲーションを必要としない。実装とスケールは簡単であり、さらに、トレーニング中の基盤となるモデルに非依存である。ロボット操作とナビゲーションベンチマークを用いて、疎密な報酬設定と密集した報酬設定の両方で実施された実験は、これらの環境でのQD最適化に必要な世代数を著しく削減することを示している。

関連論文リスト

Optimizers Qualitatively Alter Solutions And We Should Leverage This [62.662640460717476]
ディープニューラルネットワーク(DNN)は、SGDのようなローカル情報のみを使用する場合、損失のグローバルな最小限に収束することを保証できない。コミュニティは、既存のメソッドのバイアスを理解すること、また、ソリューションの特定の特性を誘発する明示的な意図で、新しいDNNを構築することを目的としている。
論文参考訳（メタデータ） (2025-07-16T13:33:31Z)
RDTF: Resource-efficient Dual-mask Training Framework for Multi-frame Animated Sticker Generation [29.340362062804967]
制約のあるリソースの下では、より小さなビデオ生成モデルをスクラッチからトレーニングすることで、ダウンストリームアプリケーションでより大きなモデル上でパラメータ効率のチューニングより優れている。サンプルエントロピーを静的かつ適応的なコンポーネントに分解する難易度適応型カリキュラム学習法を提案する。
論文参考訳（メタデータ） (2025-03-22T11:28:25Z)
Preventing Local Pitfalls in Vector Quantization via Optimal Transport [77.15924044466976]
我々はシンクホーンアルゴリズムを用いて最適な輸送問題を最適化する新しいベクトル量子化法であるOptVQを紹介する。画像再構成タスクの実験では,OptVQが100%のコードブック利用を実現し,現在最先端のVQNを超越していることが示された。
論文参考訳（メタデータ） (2024-12-19T18:58:14Z)
Prompt Tuning with Diffusion for Few-Shot Pre-trained Policy Generalization [55.14484317645865]
我々は,オフライン強化学習タスクにおいて,例外的な品質向上を促す条件拡散モデルを構築した。本稿では,Promptディフューザがプロンプトチューニングプロセスの堅牢かつ効果的なツールであることを示し,メタRLタスクにおいて高い性能を示す。
論文参考訳（メタデータ） (2024-11-02T07:38:02Z)
No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文参考訳（メタデータ） (2024-08-27T14:31:54Z)
Can Learned Optimization Make Reinforcement Learning Less Difficult? [70.5036361852812]
学習の最適化が強化学習の難しさを克服するのに役立つかどうかを検討する。本稿では, 塑性, 探索および非定常性のための学習最適化手法(OPEN)を用いて, 入力特性と出力構造がこれらの困難に対して予め提案された情報によって通知される更新規則をメタラーニングする。
論文参考訳（メタデータ） (2024-07-09T17:55:23Z)
EsaCL: Efficient Continual Learning of Sparse Models [10.227171407348326]
連続的な学習設定の主な課題は、以前に学習したタスクを実行する方法を忘れずに、タスクのシーケンスを効率的に学習することである。本研究では,モデルの予測力に悪影響を及ぼすことなく,冗長なパラメータを自動生成する,スパースモデル(EsaCL)の効率的な連続学習法を提案する。
論文参考訳（メタデータ） (2024-01-11T04:59:44Z)
PerfRL: A Small Language Model Framework for Efficient Code Optimization [14.18092813639534]
本稿では,コード最適化の問題に対処する革新的なフレームワークPerfRLを紹介する。我々のフレームワークは、小型言語モデル(SLM)と強化学習(RL)の機能を活用している。提案手法は,より短いトレーニング時間とより小さな事前学習モデルを用いて,最先端モデルと比較して,類似あるいはより良い結果が得られる。
論文参考訳（メタデータ） (2023-12-09T19:50:23Z)
Zero-Shot Sharpness-Aware Quantization for Pre-trained Language Models [88.80146574509195]
量子化は、メモリオーバーヘッドを減らし、推論を加速するための有望なアプローチである。種々のPLMのゼロショット量子化のための新しい量子化(ZSAQ)フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-20T07:09:56Z)
Efficient Exploration using Model-Based Quality-Diversity with Gradients [4.788163807490196]
本稿では,モデルに基づく品質多様性アプローチを提案する。既存のQD手法を拡張して、効率的な利用のために勾配を使い、効率的な探索のために想像において摂動を利用する。提案手法は, 対外報酬を伴うタスクにおいて, 集団ベースアプローチの多様な探索能力を維持しつつ, サンプル効率と解の質を大幅に向上させることを実証する。
論文参考訳（メタデータ） (2022-11-22T22:19:01Z)
Efficient Meta Reinforcement Learning for Preference-based Fast Adaptation [17.165083095799712]
本研究では,ループ内強化学習の文脈における少数ショット適応の問題について検討する。そこで我々は,嗜好に基づくフィードバックによる迅速なポリシー適応を実現するメタRLアルゴリズムを開発した。
論文参考訳（メタデータ） (2022-11-20T03:55:09Z)
Neuroevolution is a Competitive Alternative to Reinforcement Learning for Skill Discovery [12.586875201983778]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な制御タスクを解決するために神経ポリシーをトレーニングするための強力なパラダイムとして登場した。品質多様性(QD)手法は,スキル発見のための情報理論強化RLの代替手段であることを示す。
論文参考訳（メタデータ） (2022-10-06T11:06:39Z)
Squeezing Backbone Feature Distributions to the Max for Efficient Few-Shot Learning [3.1153758106426603]
ラベル付きサンプルの少ない使用によって生じる不確実性のため、ほとんどショット分類が難しい問題である。本稿では,特徴ベクトルをガウス分布に近づけるように処理するトランスファーベース手法を提案する。また,学習中に未学習のサンプルが利用可能となる多段階的数ショット学習では,達成された性能をさらに向上させる最適なトランスポートインスピレーションアルゴリズムも導入する。
論文参考訳（メタデータ） (2021-10-18T16:29:17Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。