Fugu-MT 論文翻訳(概要): Quality Diversity through Human Feedback

論文の概要: Quality Diversity through Human Feedback

arxiv url: http://arxiv.org/abs/2310.12103v1
Date: Wed, 18 Oct 2023 16:46:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-19 15:48:34.427599
Title: Quality Diversity through Human Feedback
Title（参考訳）: 人間のフィードバックによる品質の多様性
Authors: Li Ding, Jenny Zhang, Jeff Clune, Lee Spector, Joel Lehman
Abstract要約: 本稿では,ヒトフィードバックによる品質多様性(QDHF)について紹介する。この研究は、QDHFのサンプル効率と派生した多様性指標の品質を詳細に分析して結論付けている。
参考スコア（独自算出の注目度）: 14.415813558840972
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning from human feedback (RLHF) has exhibited the potential to enhance the performance of foundation models for qualitative tasks. Despite its promise, its efficacy is often restricted when conceptualized merely as a mechanism to maximize learned reward models of averaged human preferences, especially in areas such as image generation which demand diverse model responses. Meanwhile, quality diversity (QD) algorithms, dedicated to seeking diverse, high-quality solutions, are often constrained by the dependency on manually defined diversity metrics. Interestingly, such limitations of RLHF and QD can be overcome by blending insights from both. This paper introduces Quality Diversity through Human Feedback (QDHF), which employs human feedback for inferring diversity metrics, expanding the applicability of QD algorithms. Empirical results reveal that QDHF outperforms existing QD methods regarding automatic diversity discovery, and matches the search capabilities of QD with human-constructed metrics. Notably, when deployed for a latent space illumination task, QDHF markedly enhances the diversity of images generated by a Diffusion model. The study concludes with an in-depth analysis of QDHF's sample efficiency and the quality of its derived diversity metrics, emphasizing its promise for enhancing exploration and diversity in optimization for complex, open-ended tasks.
Abstract（参考訳）: 人間のフィードバックからの強化学習(RLHF)は質的タスクのための基礎モデルの性能を高める可能性を示した。約束にもかかわらず、その効果は、平均的な人間の嗜好の学習報酬モデルを最大化するためのメカニズムとして概念化される場合、特に多様なモデル応答を要求する画像生成のような領域において、しばしば制限される。一方、多様で高品質なソリューションを求めることに特化した品質多様性(QD)アルゴリズムは、しばしば手動で定義された多様性メトリクスに依存する。興味深いことに、RLHF と QD のそのような制限は、両方の洞察を混ぜ合わせることで克服できる。本稿では,QDアルゴリズムの適用性を高めるため,多様性指標の推測に人的フィードバックを利用するQDHF(Quality Diversity through Human Feedback)を提案する。その結果、QDHFは、自動多様性発見に関する既存のQD手法よりも優れており、QDの検索能力と人間の構築したメトリクスとが一致していることがわかった。特に、遅延空間照明タスクにデプロイする場合、QDHFは拡散モデルによって生成された画像の多様性を著しく向上させる。この研究は、QDHFのサンプル効率と派生した多様性指標の品質を詳細に分析し、複雑でオープンなタスクに対する探索と多様性の向上の約束を強調した。

関連論文リスト

Evaluating the Diversity and Quality of LLM Generated Content [72.84945252821908]
品質閾値を満たす出力間の効果的な意味的多様性を測定するための枠組みを導入する。嗜好調整モデルでは語彙的および構文的多様性が低下するが、SFTやベースモデルよりも効果的な意味的多様性が得られる。これらの発見は、多種多様な高品質な出力を必要とするアプリケーションに重要な意味を持つ。
論文参考訳（メタデータ） (2025-04-16T23:02:23Z)
Curiosity-Driven Reinforcement Learning from Human Feedback [56.45486828254951]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルと人間の好みを一致させるのに有効であるが、出力の多様性を減らすためにしばしば効果的である。好奇心駆動型RLHF(CD-RLHF)を導入する。テキスト要約や命令追従を含むタスクの広範な実験を通じて,CD-RLHFの有効性を実証する。
論文参考訳（メタデータ） (2025-01-20T12:51:40Z)
Explicit Diversity Conditions for Effective Question Answer Generation with Large Language Models [37.641872859809844]
質問応答生成(QAG)は,質問応答システムの精度を向上させる効果的なデータ拡張手法である。我々は,空間的側面,質問タイプ,実体に着目し,QAGの明確な多様性条件を提示する。特に、下流QAモデルをトレーニングする際、明確な多様性条件から生成されたQAペアは、QAGよりも平均4.1%正確な一致と4.5%のF1改善をもたらす。
論文参考訳（メタデータ） (2024-06-26T00:12:08Z)
Large Language Models as In-context AI Generators for Quality-Diversity [8.585387103144825]
In-context QDは、QDアーカイブから品質の異なる例をコンテキストとして、少数ショットと多ショットのプロンプトを使って興味深いソリューションを生成することを目的としている。 In-context QD display promising results than both QD baselines and similar strategy developed for single-jective optimization。
論文参考訳（メタデータ） (2024-04-24T10:35:36Z)
Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文参考訳（メタデータ） (2024-04-23T11:45:32Z)
MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文参考訳（メタデータ） (2024-02-14T03:56:27Z)
Diversify Question Generation with Retrieval-Augmented Style Transfer [68.00794669873196]
本稿では,検索型スタイル転送のためのフレームワーク RAST を提案する。本研究の目的は,多様なテンプレートのスタイルを質問生成に活用することである。多様性報酬と一貫性報酬の重み付けを最大化する新しい強化学習(RL)ベースのアプローチを開発する。
論文参考訳（メタデータ） (2023-10-23T02:27:31Z)
Quality-Diversity through AI Feedback [10.423093353553217]
品質多様性(QD)探索アルゴリズムは、候補者の人口を継続的に改善し多様化することを目的としている。言語モデル(LM)の最近の発展により、AIフィードバックによる探索のガイドが可能になった。 QDAIFは、独立して検索、多様化、評価、改善が可能なAIシステムへのステップである。
論文参考訳（メタデータ） (2023-10-19T12:13:58Z)
Efficient Quality-Diversity Optimization through Diverse Quality Species [3.428706362109921]
我々は,アーカイブの必要をなくしたり,事前の動作範囲を定義したりすることなく,多様な解の集団を見つけることができることを示す。本稿では,アーカイブベースの品質多様性(QD)アルゴリズムの代替として,DQS(Diverse Quality Species)を提案する。
論文参考訳（メタデータ） (2023-04-14T23:15:51Z)
Source-free Domain Adaptation Requires Penalized Diversity [60.04618512479438]
ソースデータがない場合、異なるドメイン間の知識伝達に対処するために、ソースフリードメイン適応(SFDA)が導入された。教師なしのFDAでは、多様性はソース上の1つの仮説を学習するか、共有された特徴抽出器で複数の仮説を学習することに限定される。本稿では,異なる特徴抽出器を用いて表現多様性を促進する新しい無教師付きSFDAアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-04-06T00:20:19Z)
Uncertainty-Driven Action Quality Assessment [67.20617610820857]
本稿では,複数の判定スコアの多様性を捉えるために,不確実性駆動型AQA (UD-AQA) という新しい確率モデルを提案する。我々は,AQA回帰損失の再重み付けに使用される各予測の不確かさを推定する。提案手法は,オリンピックイベントMTL-AQAとFineDivingの3つのベンチマークと,手術スキルJIGSAWSデータセットの3つのベンチマークで比較結果を得た。
論文参考訳（メタデータ） (2022-07-29T07:21:15Z)
Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文参考訳（メタデータ） (2022-04-07T14:07:51Z)
Diversity Policy Gradient for Sample Efficient Quality-Diversity Optimization [7.8499505363825755]
多様性とパフォーマンスを両立させることは、探索・探索のトレードオフに対処するための便利な方法である。本稿では、ポリシーグラディエントアルゴリズムと品質多様性アプローチの強みを組み合わせた新しいアルゴリズムQDPGを提案する。
論文参考訳（メタデータ） (2020-06-15T16:04:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。