Fugu-MT 論文翻訳(概要): Quality Diversity through Human Feedback: Towards Open-Ended Diversity-Driven Optimization

論文の概要: Quality Diversity through Human Feedback: Towards Open-Ended Diversity-Driven Optimization

arxiv url: http://arxiv.org/abs/2310.12103v3
Date: Tue, 4 Jun 2024 08:39:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-06 14:07:02.724513
Title: Quality Diversity through Human Feedback: Towards Open-Ended Diversity-Driven Optimization
Title（参考訳）: 人間のフィードバックによる品質の多様性:オープンエンドな多様性駆動最適化に向けて
Authors: Li Ding, Jenny Zhang, Jeff Clune, Lee Spector, Joel Lehman,
Abstract要約: 本稿では,ヒトフィードバックによる品質の多様性(QDHF)について紹介する。実証的な研究によると、QDHFは自動多様性発見において最先端の手法を著しく上回っている。オープンな生成タスクにおいて、QDHFは拡散モデルからテキストから画像への生成の多様性を大幅に向上させる。
参考スコア（独自算出の注目度）: 13.436983663467938
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement Learning from Human Feedback (RLHF) has shown potential in qualitative tasks where easily defined performance measures are lacking. However, there are drawbacks when RLHF is commonly used to optimize for average human preferences, especially in generative tasks that demand diverse model responses. Meanwhile, Quality Diversity (QD) algorithms excel at identifying diverse and high-quality solutions but often rely on manually crafted diversity metrics. This paper introduces Quality Diversity through Human Feedback (QDHF), a novel approach that progressively infers diversity metrics from human judgments of similarity among solutions, thereby enhancing the applicability and effectiveness of QD algorithms in complex and open-ended domains. Empirical studies show that QDHF significantly outperforms state-of-the-art methods in automatic diversity discovery and matches the efficacy of QD with manually crafted diversity metrics on standard benchmarks in robotics and reinforcement learning. Notably, in open-ended generative tasks, QDHF substantially enhances the diversity of text-to-image generation from a diffusion model and is more favorably received in user studies. We conclude by analyzing QDHF's scalability, robustness, and quality of derived diversity metrics, emphasizing its strength in open-ended optimization tasks. Code and tutorials are available at https://liding.info/qdhf.
Abstract（参考訳）: Reinforcement Learning from Human Feedback (RLHF) は、容易に定義されたパフォーマンス対策が欠如している定性的なタスクにおいてポテンシャルを示す。しかしながら、RLHFが平均的な人間の嗜好、特に多様なモデル応答を必要とする生成タスクの最適化に一般的に使用されることには欠点がある。一方、品質多様性(QD)アルゴリズムは、多様で高品質なソリューションを特定するのに優れていますが、しばしば手作業による多様性メトリクスに依存します。本稿では,QDHF(Quality Diversity through Human Feedback, QDHF)を提案する。これは,ソリューション間の類似性の人間の判断から,多様性指標を段階的に推論し,複雑かつオープンな領域におけるQDアルゴリズムの適用性と有効性を向上する手法である。実証実験により、QDHFは自動多様性発見において最先端の手法を著しく上回り、ロボット工学と強化学習の標準ベンチマーク上で、手作業による多様性測定値とQDの有効性に匹敵することを示した。特に、オープンな生成タスクにおいては、QDHFは拡散モデルからテキスト・ツー・イメージ生成の多様性を著しく向上させ、ユーザ・スタディにおいてより好意的に受け入れられる。我々はQDHFのスケーラビリティ、堅牢性、派生した多様性指標の質を分析し、オープンエンド最適化タスクにおけるその強みを強調した。コードとチュートリアルはhttps://liding.info/qdhf.comで公開されている。

関連論文リスト

Evaluating the Diversity and Quality of LLM Generated Content [72.84945252821908]
品質閾値を満たす出力間の効果的な意味的多様性を測定するための枠組みを導入する。嗜好調整モデルでは語彙的および構文的多様性が低下するが、SFTやベースモデルよりも効果的な意味的多様性が得られる。これらの発見は、多種多様な高品質な出力を必要とするアプリケーションに重要な意味を持つ。
論文参考訳（メタデータ） (2025-04-16T23:02:23Z)
Curiosity-Driven Reinforcement Learning from Human Feedback [56.45486828254951]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルと人間の好みを一致させるのに有効であるが、出力の多様性を減らすためにしばしば効果的である。好奇心駆動型RLHF(CD-RLHF)を導入する。テキスト要約や命令追従を含むタスクの広範な実験を通じて,CD-RLHFの有効性を実証する。
論文参考訳（メタデータ） (2025-01-20T12:51:40Z)
Explicit Diversity Conditions for Effective Question Answer Generation with Large Language Models [37.641872859809844]
質問応答生成(QAG)は,質問応答システムの精度を向上させる効果的なデータ拡張手法である。我々は,空間的側面,質問タイプ,実体に着目し,QAGの明確な多様性条件を提示する。特に、下流QAモデルをトレーニングする際、明確な多様性条件から生成されたQAペアは、QAGよりも平均4.1%正確な一致と4.5%のF1改善をもたらす。
論文参考訳（メタデータ） (2024-06-26T00:12:08Z)
Large Language Models as In-context AI Generators for Quality-Diversity [8.585387103144825]
In-context QDは、QDアーカイブから品質の異なる例をコンテキストとして、少数ショットと多ショットのプロンプトを使って興味深いソリューションを生成することを目的としている。 In-context QD display promising results than both QD baselines and similar strategy developed for single-jective optimization。
論文参考訳（メタデータ） (2024-04-24T10:35:36Z)
Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文参考訳（メタデータ） (2024-04-23T11:45:32Z)
MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文参考訳（メタデータ） (2024-02-14T03:56:27Z)
Diversify Question Generation with Retrieval-Augmented Style Transfer [68.00794669873196]
本稿では,検索型スタイル転送のためのフレームワーク RAST を提案する。本研究の目的は,多様なテンプレートのスタイルを質問生成に活用することである。多様性報酬と一貫性報酬の重み付けを最大化する新しい強化学習(RL)ベースのアプローチを開発する。
論文参考訳（メタデータ） (2023-10-23T02:27:31Z)
Quality-Diversity through AI Feedback [10.423093353553217]
品質多様性(QD)探索アルゴリズムは、候補者の人口を継続的に改善し多様化することを目的としている。言語モデル(LM)の最近の発展により、AIフィードバックによる探索のガイドが可能になった。 QDAIFは、独立して検索、多様化、評価、改善が可能なAIシステムへのステップである。
論文参考訳（メタデータ） (2023-10-19T12:13:58Z)
Efficient Quality-Diversity Optimization through Diverse Quality Species [3.428706362109921]
我々は,アーカイブの必要をなくしたり,事前の動作範囲を定義したりすることなく,多様な解の集団を見つけることができることを示す。本稿では,アーカイブベースの品質多様性(QD)アルゴリズムの代替として,DQS(Diverse Quality Species)を提案する。
論文参考訳（メタデータ） (2023-04-14T23:15:51Z)
Source-free Domain Adaptation Requires Penalized Diversity [60.04618512479438]
ソースデータがない場合、異なるドメイン間の知識伝達に対処するために、ソースフリードメイン適応(SFDA)が導入された。教師なしのFDAでは、多様性はソース上の1つの仮説を学習するか、共有された特徴抽出器で複数の仮説を学習することに限定される。本稿では,異なる特徴抽出器を用いて表現多様性を促進する新しい無教師付きSFDAアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-04-06T00:20:19Z)
Uncertainty-Driven Action Quality Assessment [67.20617610820857]
本稿では,複数の判定スコアの多様性を捉えるために,不確実性駆動型AQA (UD-AQA) という新しい確率モデルを提案する。我々は,AQA回帰損失の再重み付けに使用される各予測の不確かさを推定する。提案手法は,オリンピックイベントMTL-AQAとFineDivingの3つのベンチマークと,手術スキルJIGSAWSデータセットの3つのベンチマークで比較結果を得た。
論文参考訳（メタデータ） (2022-07-29T07:21:15Z)
Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文参考訳（メタデータ） (2022-04-07T14:07:51Z)
Diversity Policy Gradient for Sample Efficient Quality-Diversity Optimization [7.8499505363825755]
多様性とパフォーマンスを両立させることは、探索・探索のトレードオフに対処するための便利な方法である。本稿では、ポリシーグラディエントアルゴリズムと品質多様性アプローチの強みを組み合わせた新しいアルゴリズムQDPGを提案する。
論文参考訳（メタデータ） (2020-06-15T16:04:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。