論文の概要: VendiRL: A Framework for Self-Supervised Reinforcement Learning of Diversely Diverse Skills
- arxiv url: http://arxiv.org/abs/2509.02930v1
- Date: Wed, 03 Sep 2025 01:53:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.384265
- Title: VendiRL: A Framework for Self-Supervised Reinforcement Learning of Diversely Diverse Skills
- Title(参考訳): VendiRL:多変量スキルの自己改善強化学習フレームワーク
- Authors: Erik M. Lintunen,
- Abstract要約: 自己指導型強化学習(RL)において、重要な課題の1つは、未知の将来のタスクに備える多様なスキルセットを学ぶことである。
本稿では,多様なスキルセットを学習する統合フレームワークであるVendiRLを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In self-supervised reinforcement learning (RL), one of the key challenges is learning a diverse set of skills to prepare agents for unknown future tasks. Despite impressive advances, scalability and evaluation remain prevalent issues. Regarding scalability, the search for meaningful skills can be obscured by high-dimensional feature spaces, where relevant features may vary across downstream task domains. For evaluating skill diversity, defining what constitutes "diversity" typically requires a hard commitment to a specific notion of what it means for skills to be diverse, potentially leading to inconsistencies in how skill diversity is understood, making results across different approaches hard to compare, and leaving many forms of diversity unexplored. To address these issues, we adopt a measure of sample diversity that translates ideas from ecology to machine learning -- the Vendi Score -- allowing the user to specify and evaluate any desired form of diversity. We demonstrate how this metric facilitates skill evaluation and introduce VendiRL, a unified framework for learning diversely diverse sets of skills. Given distinct similarity functions, VendiRL motivates distinct forms of diversity, which could support skill-diversity pretraining in new and richly interactive environments where optimising for various forms of diversity may be desirable.
- Abstract(参考訳): 自己指導型強化学習(RL)において、重要な課題の1つは、未知の将来のタスクに備える多様なスキルセットを学ぶことである。
目覚ましい進歩にもかかわらず、スケーラビリティと評価は相変わらず大きな問題である。
スケーラビリティに関して、意味のあるスキルの探索は、下流のタスクドメインで関連する機能が異なるような高次元の特徴空間によって曖昧にすることができる。
スキルの多様性を評価するためには、通常、"多様性"を構成するものを定義するには、スキルの多様性がどのような意味を持つのかという特定の概念に固執する必要がある。
これらの問題に対処するために、私たちは、エコロジーから機械学習(Vendi Score)へのアイデアを翻訳するサンプルの多様性の尺度を採用しています。
本稿では,この指標がいかにスキル評価を促進するかを実証し,多様なスキルセットを学習するための統一フレームワークであるVendiRLを紹介する。
異なる類似性関数を前提として、VendiRLは多様性の異なる形態をモチベーションとし、多様な多様性を最適化することが望ましい新しい、リッチな対話環境において、スキル多様性事前訓練を支援することができる。
関連論文リスト
- A survey of diversity quantification in natural language processing: The why, what, where and how [2.5833049611832273]
我々は過去6年間のACLアンソロジーの論文を「多様性」または「多様性」のタイトルで調査した。
NLPでなぜ、どこで、どこで、どのように多様性が測定されるかという、統一された分類を提唱した。
本研究は,NLPにおける多様性のより優れた形式化に向けての道を開くものであると考えている。
論文 参考訳(メタデータ) (2025-07-28T14:12:34Z) - Evaluating the Diversity and Quality of LLM Generated Content [72.84945252821908]
品質閾値を満たす出力間の効果的な意味的多様性を測定するための枠組みを導入する。
嗜好調整モデルでは語彙的および構文的多様性が低下するが、SFTやベースモデルよりも効果的な意味的多様性が得られる。
これらの発見は、多種多様な高品質な出力を必要とするアプリケーションに重要な意味を持つ。
論文 参考訳(メタデータ) (2025-04-16T23:02:23Z) - The impact of behavioral diversity in multi-agent reinforcement learning [8.905920197601173]
行動多様性と形態的多様性の相乗効果を示す。
行動に異質なチームがいかに学習し、繰り返し発生する混乱を克服するための潜伏したスキルを維持しているかを示します。
論文 参考訳(メタデータ) (2024-12-19T21:13:32Z) - Language Guided Skill Discovery [56.84356022198222]
言語ガイドスキル発見(LGSD)を導入し,スキル間の意味的多様性を最大化する。
LGSDはユーザープロンプトを入力として取り、セマンティックなスキルのセットを出力する。
本研究は,LGSDにより,単にプロンプトを変更するだけで,手足のロボットが平面上の異なるユーザ意図のエリアを訪問できることを実証する。
論文 参考訳(メタデータ) (2024-06-07T04:25:38Z) - Acquiring Diverse Skills using Curriculum Reinforcement Learning with Mixture of Experts [58.220879689376744]
強化学習(Reinforcement Learning, RL)は, 優れた政策獲得のための強力なアプローチである。
多様なスキルを学習するための textbfDiverse textbfSkill textbfLearning (Di-SkilL) を提案する。
本稿では,Di-SkilLが多種多様なパフォーマンススキルを学習できるロボットシミュレーションタスクについて述べる。
論文 参考訳(メタデータ) (2024-03-11T17:49:18Z) - Diversify Question Generation with Retrieval-Augmented Style Transfer [68.00794669873196]
本稿では,検索型スタイル転送のためのフレームワーク RAST を提案する。
本研究の目的は,多様なテンプレートのスタイルを質問生成に活用することである。
多様性報酬と一貫性報酬の重み付けを最大化する新しい強化学習(RL)ベースのアプローチを開発する。
論文 参考訳(メタデータ) (2023-10-23T02:27:31Z) - Controlled Diversity with Preference : Towards Learning a Diverse Set of
Desired Skills [15.187171070594935]
エージェントが多様かつ望ましいスキルのセットを学ぶための協調的なヒューマンガイド機構である制御された多様性と優先度(CDP)を提案する。
鍵となる原則は、軌道上の人間の嗜好ラベルを用いて訓練された嗜好モデルに従って、好まれる領域にスキルの発見を制限することである。
2次元ナビゲーションとMujoco環境に対する我々のアプローチを評価し、多様な、しかし望ましいスキルを発見できることを実証した。
論文 参考訳(メタデータ) (2023-03-07T03:37:47Z) - Discovering Generalizable Skills via Automated Generation of Diverse
Tasks [82.16392072211337]
本稿では,多種多様なタスクの自動生成による一般化可能なスキルの発見手法を提案する。
教師なしスキル発見の先行研究とは対照的に,本手法では各スキルをトレーニング可能なタスクジェネレータが生成するユニークなタスクとペアリングする。
生成したタスクにおけるロボットの動作に定義されたタスク判別器を共同で訓練し、多様性目標の低いエビデンスを推定する。
学習スキルは階層的な強化学習アルゴリズムで構成され、目に見えない目標タスクを解決する。
論文 参考訳(メタデータ) (2021-06-26T03:41:51Z) - Relative Variational Intrinsic Control [11.328970848714919]
Relative Variational Intrinsic Control(RVIC)は、エージェントが環境との関係をどのように変えるかで区別できる学習スキルを奨励します。
本稿では,階層的強化学習において,既存の手法によるスキルよりもRVICのスキルが有用であることを示す。
論文 参考訳(メタデータ) (2020-12-14T18:59:23Z) - Evaluating the Evaluation of Diversity in Natural Language Generation [43.05127848086264]
本稿では,自然言語生成システムにおける多様性指標を評価するためのフレームワークを提案する。
当社のフレームワークは,NLGシステムの改善に向けた重要なステップである,さまざまな多様性指標の理解を促進することができる。
論文 参考訳(メタデータ) (2020-04-06T20:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。