論文の概要: Quality Diversity through Human Feedback
- arxiv url: http://arxiv.org/abs/2310.12103v1
- Date: Wed, 18 Oct 2023 16:46:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 15:48:34.427599
- Title: Quality Diversity through Human Feedback
- Title(参考訳): 人間のフィードバックによる品質の多様性
- Authors: Li Ding, Jenny Zhang, Jeff Clune, Lee Spector, Joel Lehman
- Abstract要約: 本稿では,ヒトフィードバックによる品質多様性(QDHF)について紹介する。
この研究は、QDHFのサンプル効率と派生した多様性指標の品質を詳細に分析して結論付けている。
- 参考スコア(独自算出の注目度): 14.415813558840972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning from human feedback (RLHF) has exhibited the potential
to enhance the performance of foundation models for qualitative tasks. Despite
its promise, its efficacy is often restricted when conceptualized merely as a
mechanism to maximize learned reward models of averaged human preferences,
especially in areas such as image generation which demand diverse model
responses. Meanwhile, quality diversity (QD) algorithms, dedicated to seeking
diverse, high-quality solutions, are often constrained by the dependency on
manually defined diversity metrics. Interestingly, such limitations of RLHF and
QD can be overcome by blending insights from both. This paper introduces
Quality Diversity through Human Feedback (QDHF), which employs human feedback
for inferring diversity metrics, expanding the applicability of QD algorithms.
Empirical results reveal that QDHF outperforms existing QD methods regarding
automatic diversity discovery, and matches the search capabilities of QD with
human-constructed metrics. Notably, when deployed for a latent space
illumination task, QDHF markedly enhances the diversity of images generated by
a Diffusion model. The study concludes with an in-depth analysis of QDHF's
sample efficiency and the quality of its derived diversity metrics, emphasizing
its promise for enhancing exploration and diversity in optimization for
complex, open-ended tasks.
- Abstract(参考訳): 人間のフィードバックからの強化学習(RLHF)は質的タスクのための基礎モデルの性能を高める可能性を示した。
約束にもかかわらず、その効果は、平均的な人間の嗜好の学習報酬モデルを最大化するためのメカニズムとして概念化される場合、特に多様なモデル応答を要求する画像生成のような領域において、しばしば制限される。
一方、多様で高品質なソリューションを求めることに特化した品質多様性(QD)アルゴリズムは、しばしば手動で定義された多様性メトリクスに依存する。
興味深いことに、RLHF と QD のそのような制限は、両方の洞察を混ぜ合わせることで克服できる。
本稿では,QDアルゴリズムの適用性を高めるため,多様性指標の推測に人的フィードバックを利用するQDHF(Quality Diversity through Human Feedback)を提案する。
その結果、QDHFは、自動多様性発見に関する既存のQD手法よりも優れており、QDの検索能力と人間の構築したメトリクスとが一致していることがわかった。
特に、遅延空間照明タスクにデプロイする場合、QDHFは拡散モデルによって生成された画像の多様性を著しく向上させる。
この研究は、QDHFのサンプル効率と派生した多様性指標の品質を詳細に分析し、複雑でオープンなタスクに対する探索と多様性の向上の約束を強調した。
関連論文リスト
- Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Testing for Fault Diversity in Reinforcement Learning [13.133263651395865]
ポリシテストは可能な限り多くの障害(例えば、同様の自動車事故を引き起こすインプット)を見つけるのではなく、モデルで可能な限り情報的かつ多様な障害を明らかにすることを目的としている、と私たちは主張する。
QDの最適化は概念的には単純であり、一般的に適用可能であるが、決定モデルにおいてより多様な欠点を効果的に発見できることが示される。
論文 参考訳(メタデータ) (2024-03-22T09:46:30Z) - Diversify Question Generation with Retrieval-Augmented Style Transfer [68.00794669873196]
本稿では,検索型スタイル転送のためのフレームワーク RAST を提案する。
本研究の目的は,多様なテンプレートのスタイルを質問生成に活用することである。
多様性報酬と一貫性報酬の重み付けを最大化する新しい強化学習(RL)ベースのアプローチを開発する。
論文 参考訳(メタデータ) (2023-10-23T02:27:31Z) - Quality-Diversity through AI Feedback [10.423093353553217]
品質多様性(QD)探索アルゴリズムは、候補者の人口を継続的に改善し多様化することを目的としている。
言語モデル(LM)の最近の発展により、AIフィードバックによる探索のガイドが可能になった。
QDAIFは、独立して検索、多様化、評価、改善が可能なAIシステムへのステップである。
論文 参考訳(メタデータ) (2023-10-19T12:13:58Z) - Efficient Quality-Diversity Optimization through Diverse Quality Species [3.428706362109921]
我々は,アーカイブの必要をなくしたり,事前の動作範囲を定義したりすることなく,多様な解の集団を見つけることができることを示す。
本稿では,アーカイブベースの品質多様性(QD)アルゴリズムの代替として,DQS(Diverse Quality Species)を提案する。
論文 参考訳(メタデータ) (2023-04-14T23:15:51Z) - Source-free Domain Adaptation Requires Penalized Diversity [60.04618512479438]
ソースデータがない場合、異なるドメイン間の知識伝達に対処するために、ソースフリードメイン適応(SFDA)が導入された。
教師なしのFDAでは、多様性はソース上の1つの仮説を学習するか、共有された特徴抽出器で複数の仮説を学習することに限定される。
本稿では,異なる特徴抽出器を用いて表現多様性を促進する新しい無教師付きSFDAアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-06T00:20:19Z) - Fingerprint Image-Quality Estimation and its Application to
Multialgorithm Verification [56.128200319868526]
信号品質の認識は、認識率を増大させ、マルチセンサー環境における決定を著しく支援することが見出されている。
本稿では, 指紋画像の向きテンソルを用いて, ノイズ, 構造不足, ぼやけなどの信号障害を, 対称性記述子の助けを借りて定量化する。
定量的な結果は、あらゆる面において品質意識を優先し、認識率を高め、異なるスキルを持つ専門家を効果的かつ効果的に融合させる。
論文 参考訳(メタデータ) (2022-11-24T12:17:49Z) - Efficient Exploration using Model-Based Quality-Diversity with Gradients [4.788163807490196]
本稿では,モデルに基づく品質多様性アプローチを提案する。
既存のQD手法を拡張して、効率的な利用のために勾配を使い、効率的な探索のために想像において摂動を利用する。
提案手法は, 対外報酬を伴うタスクにおいて, 集団ベースアプローチの多様な探索能力を維持しつつ, サンプル効率と解の質を大幅に向上させることを実証する。
論文 参考訳(メタデータ) (2022-11-22T22:19:01Z) - Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。
既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。
本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文 参考訳(メタデータ) (2022-04-07T14:07:51Z) - Knowing Depth Quality In Advance: A Depth Quality Assessment Method For
RGB-D Salient Object Detection [53.603301314081826]
本稿では,D品質を事前に測定する簡易かつ効果的な手法を提案する。
提案手法は, ほぼ2.0%で安定した性能向上を実現する。
論文 参考訳(メタデータ) (2020-08-07T10:52:52Z) - Diversity Policy Gradient for Sample Efficient Quality-Diversity
Optimization [7.8499505363825755]
多様性とパフォーマンスを両立させることは、探索・探索のトレードオフに対処するための便利な方法である。
本稿では、ポリシーグラディエントアルゴリズムと品質多様性アプローチの強みを組み合わせた新しいアルゴリズムQDPGを提案する。
論文 参考訳(メタデータ) (2020-06-15T16:04:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。