論文の概要: Quality Diversity through Human Feedback
- arxiv url: http://arxiv.org/abs/2310.12103v2
- Date: Thu, 14 Dec 2023 04:30:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-16 03:54:55.706197
- Title: Quality Diversity through Human Feedback
- Title(参考訳): 人間のフィードバックによる品質の多様性
- Authors: Li Ding, Jenny Zhang, Jeff Clune, Lee Spector, Joel Lehman
- Abstract要約: 人間のフィードバックによる品質の多様性(QDHF)は、人間のフィードバックを品質の多様性フレームワークに統合する新しいアプローチである。
我々の実証研究は、QDHFが自動多様性発見において最先端の手法を著しく上回っていることを示している。
我々はQDHFのスケーラビリティと派生した多様性指標の品質を分析して結論付ける。
- 参考スコア(独自算出の注目度): 14.415813558840972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) has shown potential in
qualitative tasks where clear objectives are lacking. However, its
effectiveness is not fully realized when it is conceptualized merely as a tool
to optimize average human preferences, especially in generative tasks that
demand diverse model responses. Meanwhile, Quality Diversity (QD) algorithms
excel at identifying diverse and high-quality solutions but often rely on
manually crafted diversity metrics. This paper introduces Quality Diversity
through Human Feedback (QDHF), a novel approach integrating human feedback into
the QD framework. QDHF infers diversity metrics from human judgments of
similarity among solutions, thereby enhancing the applicability and
effectiveness of QD algorithms. Our empirical studies show that QDHF
significantly outperforms state-of-the-art methods in automatic diversity
discovery and matches the efficacy of using manually crafted metrics for QD on
standard benchmarks in robotics and reinforcement learning. Notably, in a
latent space illumination task, QDHF substantially enhances the diversity in
images generated by a diffusion model and was more favorably received in user
studies. We conclude by analyzing QDHF's scalability and the quality of its
derived diversity metrics, emphasizing its potential to improve exploration and
diversity in complex, open-ended optimization tasks. Source code is available
on GitHub: https://github.com/ld-ing/qdhf.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) は、明確な目的が欠如している定性的なタスクに可能性を示している。
しかし、その効果は、平均的な人間の嗜好を最適化するツールとしてのみ概念化され、特に多様なモデル応答を必要とする生成タスクにおいて、完全には実現されない。
一方、品質多様性(QD)アルゴリズムは、多様で高品質なソリューションを特定するのに優れています。
本稿では,人間のフィードバックをQDフレームワークに統合する新しいアプローチである,人間のフィードバックによる品質多様性について紹介する。
QDHFは、ソリューション間の類似性の人間の判断から多様性メトリクスを推定し、QDアルゴリズムの適用性と有効性を高める。
実験の結果,qdhfは自動ダイバーシティ発見において最先端手法を著しく上回っており,ロボット工学や強化学習における標準ベンチマークにおけるqdのための手作りメトリクスの使用の有効性に匹敵することがわかった。
特に、潜時空間照明タスクにおいて、QDHFは拡散モデルによって生成された画像の多様性を著しく向上させ、ユーザ研究においてより好意的に受け入れられた。
我々はQDHFのスケーラビリティと派生した多様性指標の品質を分析し、複雑でオープンな最適化タスクにおける探索と多様性を改善する可能性を強調した。
ソースコードはgithubにある。 https://github.com/ld-ing/qdhf。
関連論文リスト
- MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with
Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Diversify Question Generation with Retrieval-Augmented Style Transfer [68.00794669873196]
本稿では,検索型スタイル転送のためのフレームワーク RAST を提案する。
本研究の目的は,多様なテンプレートのスタイルを質問生成に活用することである。
多様性報酬と一貫性報酬の重み付けを最大化する新しい強化学習(RL)ベースのアプローチを開発する。
論文 参考訳(メタデータ) (2023-10-23T02:27:31Z) - Quality-Diversity through AI Feedback [10.423093353553217]
品質多様性(QD)探索アルゴリズムは、候補者の人口を継続的に改善し多様化することを目的としている。
言語モデル(LM)の最近の発展により、AIフィードバックによる探索のガイドが可能になった。
QDAIFは、独立して検索、多様化、評価、改善が可能なAIシステムへのステップである。
論文 参考訳(メタデータ) (2023-10-19T12:13:58Z) - Efficient Quality-Diversity Optimization through Diverse Quality Species [3.428706362109921]
我々は,アーカイブの必要をなくしたり,事前の動作範囲を定義したりすることなく,多様な解の集団を見つけることができることを示す。
本稿では,アーカイブベースの品質多様性(QD)アルゴリズムの代替として,DQS(Diverse Quality Species)を提案する。
論文 参考訳(メタデータ) (2023-04-14T23:15:51Z) - Source-free Domain Adaptation Requires Penalized Diversity [60.04618512479438]
ソースデータがない場合、異なるドメイン間の知識伝達に対処するために、ソースフリードメイン適応(SFDA)が導入された。
教師なしのFDAでは、多様性はソース上の1つの仮説を学習するか、共有された特徴抽出器で複数の仮説を学習することに限定される。
本稿では,異なる特徴抽出器を用いて表現多様性を促進する新しい無教師付きSFDAアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-06T00:20:19Z) - Fingerprint Image-Quality Estimation and its Application to
Multialgorithm Verification [56.128200319868526]
信号品質の認識は、認識率を増大させ、マルチセンサー環境における決定を著しく支援することが見出されている。
本稿では, 指紋画像の向きテンソルを用いて, ノイズ, 構造不足, ぼやけなどの信号障害を, 対称性記述子の助けを借りて定量化する。
定量的な結果は、あらゆる面において品質意識を優先し、認識率を高め、異なるスキルを持つ専門家を効果的かつ効果的に融合させる。
論文 参考訳(メタデータ) (2022-11-24T12:17:49Z) - Efficient Exploration using Model-Based Quality-Diversity with Gradients [4.788163807490196]
本稿では,モデルに基づく品質多様性アプローチを提案する。
既存のQD手法を拡張して、効率的な利用のために勾配を使い、効率的な探索のために想像において摂動を利用する。
提案手法は, 対外報酬を伴うタスクにおいて, 集団ベースアプローチの多様な探索能力を維持しつつ, サンプル効率と解の質を大幅に向上させることを実証する。
論文 参考訳(メタデータ) (2022-11-22T22:19:01Z) - Neuroevolution is a Competitive Alternative to Reinforcement Learning
for Skill Discovery [12.586875201983778]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な制御タスクを解決するために神経ポリシーをトレーニングするための強力なパラダイムとして登場した。
品質多様性(QD)手法は,スキル発見のための情報理論強化RLの代替手段であることを示す。
論文 参考訳(メタデータ) (2022-10-06T11:06:39Z) - Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。
既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。
本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文 参考訳(メタデータ) (2022-04-07T14:07:51Z) - Knowing Depth Quality In Advance: A Depth Quality Assessment Method For
RGB-D Salient Object Detection [53.603301314081826]
本稿では,D品質を事前に測定する簡易かつ効果的な手法を提案する。
提案手法は, ほぼ2.0%で安定した性能向上を実現する。
論文 参考訳(メタデータ) (2020-08-07T10:52:52Z) - Diversity Policy Gradient for Sample Efficient Quality-Diversity
Optimization [7.8499505363825755]
多様性とパフォーマンスを両立させることは、探索・探索のトレードオフに対処するための便利な方法である。
本稿では、ポリシーグラディエントアルゴリズムと品質多様性アプローチの強みを組み合わせた新しいアルゴリズムQDPGを提案する。
論文 参考訳(メタデータ) (2020-06-15T16:04:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。