Fugu-MT 論文翻訳(概要): Quality Diversity through Human Feedback

論文の概要: Quality Diversity through Human Feedback

arxiv url: http://arxiv.org/abs/2310.12103v2
Date: Thu, 14 Dec 2023 04:30:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-16 03:54:55.706197
Title: Quality Diversity through Human Feedback
Title（参考訳）: 人間のフィードバックによる品質の多様性
Authors: Li Ding, Jenny Zhang, Jeff Clune, Lee Spector, Joel Lehman
Abstract要約: 人間のフィードバックによる品質の多様性(QDHF)は、人間のフィードバックを品質の多様性フレームワークに統合する新しいアプローチである。我々の実証研究は、QDHFが自動多様性発見において最先端の手法を著しく上回っていることを示している。我々はQDHFのスケーラビリティと派生した多様性指標の品質を分析して結論付ける。
参考スコア（独自算出の注目度）: 14.415813558840972
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement Learning from Human Feedback (RLHF) has shown potential in qualitative tasks where clear objectives are lacking. However, its effectiveness is not fully realized when it is conceptualized merely as a tool to optimize average human preferences, especially in generative tasks that demand diverse model responses. Meanwhile, Quality Diversity (QD) algorithms excel at identifying diverse and high-quality solutions but often rely on manually crafted diversity metrics. This paper introduces Quality Diversity through Human Feedback (QDHF), a novel approach integrating human feedback into the QD framework. QDHF infers diversity metrics from human judgments of similarity among solutions, thereby enhancing the applicability and effectiveness of QD algorithms. Our empirical studies show that QDHF significantly outperforms state-of-the-art methods in automatic diversity discovery and matches the efficacy of using manually crafted metrics for QD on standard benchmarks in robotics and reinforcement learning. Notably, in a latent space illumination task, QDHF substantially enhances the diversity in images generated by a diffusion model and was more favorably received in user studies. We conclude by analyzing QDHF's scalability and the quality of its derived diversity metrics, emphasizing its potential to improve exploration and diversity in complex, open-ended optimization tasks. Source code is available on GitHub: https://github.com/ld-ing/qdhf.
Abstract（参考訳）: Reinforcement Learning from Human Feedback (RLHF) は、明確な目的が欠如している定性的なタスクに可能性を示している。しかし、その効果は、平均的な人間の嗜好を最適化するツールとしてのみ概念化され、特に多様なモデル応答を必要とする生成タスクにおいて、完全には実現されない。一方、品質多様性(QD)アルゴリズムは、多様で高品質なソリューションを特定するのに優れています。本稿では,人間のフィードバックをQDフレームワークに統合する新しいアプローチである,人間のフィードバックによる品質多様性について紹介する。 QDHFは、ソリューション間の類似性の人間の判断から多様性メトリクスを推定し、QDアルゴリズムの適用性と有効性を高める。実験の結果,qdhfは自動ダイバーシティ発見において最先端手法を著しく上回っており,ロボット工学や強化学習における標準ベンチマークにおけるqdのための手作りメトリクスの使用の有効性に匹敵することがわかった。特に、潜時空間照明タスクにおいて、QDHFは拡散モデルによって生成された画像の多様性を著しく向上させ、ユーザ研究においてより好意的に受け入れられた。我々はQDHFのスケーラビリティと派生した多様性指標の品質を分析し、複雑でオープンな最適化タスクにおける探索と多様性を改善する可能性を強調した。ソースコードはgithubにある。 https://github.com/ld-ing/qdhf。

関連論文リスト

Evaluating the Diversity and Quality of LLM Generated Content [72.84945252821908]
品質閾値を満たす出力間の効果的な意味的多様性を測定するための枠組みを導入する。嗜好調整モデルでは語彙的および構文的多様性が低下するが、SFTやベースモデルよりも効果的な意味的多様性が得られる。これらの発見は、多種多様な高品質な出力を必要とするアプリケーションに重要な意味を持つ。
論文参考訳（メタデータ） (2025-04-16T23:02:23Z)
Curiosity-Driven Reinforcement Learning from Human Feedback [56.45486828254951]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルと人間の好みを一致させるのに有効であるが、出力の多様性を減らすためにしばしば効果的である。好奇心駆動型RLHF(CD-RLHF)を導入する。テキスト要約や命令追従を含むタスクの広範な実験を通じて,CD-RLHFの有効性を実証する。
論文参考訳（メタデータ） (2025-01-20T12:51:40Z)
Explicit Diversity Conditions for Effective Question Answer Generation with Large Language Models [37.641872859809844]
質問応答生成(QAG)は,質問応答システムの精度を向上させる効果的なデータ拡張手法である。我々は,空間的側面,質問タイプ,実体に着目し,QAGの明確な多様性条件を提示する。特に、下流QAモデルをトレーニングする際、明確な多様性条件から生成されたQAペアは、QAGよりも平均4.1%正確な一致と4.5%のF1改善をもたらす。
論文参考訳（メタデータ） (2024-06-26T00:12:08Z)
Large Language Models as In-context AI Generators for Quality-Diversity [8.585387103144825]
In-context QDは、QDアーカイブから品質の異なる例をコンテキストとして、少数ショットと多ショットのプロンプトを使って興味深いソリューションを生成することを目的としている。 In-context QD display promising results than both QD baselines and similar strategy developed for single-jective optimization。
論文参考訳（メタデータ） (2024-04-24T10:35:36Z)
Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文参考訳（メタデータ） (2024-04-23T11:45:32Z)
MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文参考訳（メタデータ） (2024-02-14T03:56:27Z)
Diversify Question Generation with Retrieval-Augmented Style Transfer [68.00794669873196]
本稿では,検索型スタイル転送のためのフレームワーク RAST を提案する。本研究の目的は,多様なテンプレートのスタイルを質問生成に活用することである。多様性報酬と一貫性報酬の重み付けを最大化する新しい強化学習(RL)ベースのアプローチを開発する。
論文参考訳（メタデータ） (2023-10-23T02:27:31Z)
Quality-Diversity through AI Feedback [10.423093353553217]
品質多様性(QD)探索アルゴリズムは、候補者の人口を継続的に改善し多様化することを目的としている。言語モデル(LM)の最近の発展により、AIフィードバックによる探索のガイドが可能になった。 QDAIFは、独立して検索、多様化、評価、改善が可能なAIシステムへのステップである。
論文参考訳（メタデータ） (2023-10-19T12:13:58Z)
Efficient Quality-Diversity Optimization through Diverse Quality Species [3.428706362109921]
我々は,アーカイブの必要をなくしたり,事前の動作範囲を定義したりすることなく,多様な解の集団を見つけることができることを示す。本稿では,アーカイブベースの品質多様性(QD)アルゴリズムの代替として,DQS(Diverse Quality Species)を提案する。
論文参考訳（メタデータ） (2023-04-14T23:15:51Z)
Source-free Domain Adaptation Requires Penalized Diversity [60.04618512479438]
ソースデータがない場合、異なるドメイン間の知識伝達に対処するために、ソースフリードメイン適応(SFDA)が導入された。教師なしのFDAでは、多様性はソース上の1つの仮説を学習するか、共有された特徴抽出器で複数の仮説を学習することに限定される。本稿では,異なる特徴抽出器を用いて表現多様性を促進する新しい無教師付きSFDAアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-04-06T00:20:19Z)
Uncertainty-Driven Action Quality Assessment [67.20617610820857]
本稿では,複数の判定スコアの多様性を捉えるために,不確実性駆動型AQA (UD-AQA) という新しい確率モデルを提案する。我々は,AQA回帰損失の再重み付けに使用される各予測の不確かさを推定する。提案手法は,オリンピックイベントMTL-AQAとFineDivingの3つのベンチマークと,手術スキルJIGSAWSデータセットの3つのベンチマークで比較結果を得た。
論文参考訳（メタデータ） (2022-07-29T07:21:15Z)
Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文参考訳（メタデータ） (2022-04-07T14:07:51Z)
Diversity Policy Gradient for Sample Efficient Quality-Diversity Optimization [7.8499505363825755]
多様性とパフォーマンスを両立させることは、探索・探索のトレードオフに対処するための便利な方法である。本稿では、ポリシーグラディエントアルゴリズムと品質多様性アプローチの強みを組み合わせた新しいアルゴリズムQDPGを提案する。
論文参考訳（メタデータ） (2020-06-15T16:04:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。