論文の概要: Diversity from Human Feedback
- arxiv url: http://arxiv.org/abs/2310.06648v3
- Date: Sun, 08 Jun 2025 10:29:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:08.129584
- Title: Diversity from Human Feedback
- Title(参考訳): フィードバックからの多様性
- Authors: Ren-Jian Wang, Ke Xue, Yutong Wang, Peng Yang, Haobo Fu, Qiang Fu, Chao Qian,
- Abstract要約: 本稿では,人間のフィードバックから行動空間を学習する問題を提案し,その解法として人間フィードバックからの多様性(Diversity from Human Feedback, DivHF)を提案する。
DivHFは、人間のフィードバックをクエリすることで、人間の好みと整合した振る舞いを学習する。
本研究では,DivHF を品質多様性最適化アルゴリズム MAP-Elites に統合し,QDax スイート上で実験を行うことにより,DivHF の有効性を示す。
- 参考スコア(独自算出の注目度): 37.19111941190105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diversity plays a significant role in many problems, such as ensemble learning, reinforcement learning, and combinatorial optimization. How to define the diversity measure is a longstanding problem. Many methods rely on expert experience to define a proper behavior space and then obtain the diversity measure, which is, however, challenging in many scenarios. In this paper, we propose the problem of learning a behavior space from human feedback and present a general method called Diversity from Human Feedback (DivHF) to solve it. DivHF learns a behavior descriptor consistent with human preference by querying human feedback. The learned behavior descriptor can be combined with any distance measure to define a diversity measure. We demonstrate the effectiveness of DivHF by integrating it with the Quality-Diversity optimization algorithm MAP-Elites and conducting experiments on the QDax suite. The results show that the behavior learned by DivHF is much more consistent with human requirements than the one learned by direct data-driven approaches without human feedback, and makes the final solutions more diverse under human preference. Our contributions include formulating the problem, proposing the DivHF method, and demonstrating its effectiveness through experiments.
- Abstract(参考訳): 多様性は、アンサンブル学習、強化学習、組合せ最適化など、多くの問題において重要な役割を果たしている。
多様性の尺度をどのように定義するかは、長年の課題である。
多くの手法は専門的な経験に基づいて適切な行動空間を定義し、多様性の測定値を得るが、多くのシナリオでは難しい。
本稿では,人間のフィードバックから行動空間を学習する問題を提案するとともに,人間のフィードバックから多様性(Diversity from Human Feedback, DivHF)と呼ばれる一般的な手法を提案する。
DivHFは、人間のフィードバックをクエリすることで、人間の好みと整合した行動記述子を学習する。
学習した行動記述子は、あらゆる距離測度と組み合わせて多様性測度を定義することができる。
本研究では、DivHFをMAP-Elitesアルゴリズムと統合し、QDaxスイート上で実験を行うことにより、DivHFの有効性を実証する。
その結果、DivHFが学習した行動は、人間のフィードバックなしで直接データ駆動アプローチで学習した行動よりも、人間の要求とずっと一致していることが示され、最終的な解決策は人間の好みの下でより多様になる。
我々の貢献は、問題を定式化し、DivHF法を提案し、実験を通してその効果を実証することである。
関連論文リスト
- Curiosity-Driven Reinforcement Learning from Human Feedback [56.45486828254951]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルと人間の好みを一致させるのに有効であるが、出力の多様性を減らすためにしばしば効果的である。
好奇心駆動型RLHF(CD-RLHF)を導入する。
テキスト要約や命令追従を含むタスクの広範な実験を通じて,CD-RLHFの有効性を実証する。
論文 参考訳(メタデータ) (2025-01-20T12:51:40Z) - Personalizing Reinforcement Learning from Human Feedback with Variational Preference Learning [12.742158403867002]
ヒューマンフィードバックからの強化学習は、基礎モデルを人間の価値観や好みに合わせるための強力なパラダイムである。
現在のRLHF技術は、多様な集団における個人の嗜好の自然に生じる相違を説明できない。
マルチモーダルなRLHF手法のクラスを開発し,多元的アライメントの必要性に対処する。
論文 参考訳(メタデータ) (2024-08-19T15:18:30Z) - Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment [84.32768080422349]
人間の好みの調整は、大きな言語モデルが誤解を招くか有害なコンテンツを生成するのを防ぐ。
本研究では, 微調整後のLLMの最終性能と線形相関を示唆し, 即時多様性の新たな定式化を提案する。
論文 参考訳(メタデータ) (2024-03-17T07:08:55Z) - Provable Multi-Party Reinforcement Learning with Diverse Human Feedback [63.830731470186855]
RLHF(Reinforcement Learning with Human feedback)は、モデルと人間の好みを結びつける新しいパラダイムである。
一つの報酬関数を学習しても、複数の個人の好みを捉えバランスが取れないので、従来のRLHFアプローチが失敗する可能性があることを示す。
メタラーニングを取り入れて、複数の嗜好を学習し、異なる社会福祉機能を採用して、複数のパーティにまたがる嗜好を集約する。
論文 参考訳(メタデータ) (2024-03-08T03:05:11Z) - Improving Demonstration Diversity by Human-Free Fusing for Text-to-SQL [51.48239006107272]
本稿では,テキスト・ツー・ダイバーシティ研究における実証の多様性を計測し,改善する方法について論じる。
我々は,高多様性のデモンストレーションプールを構築するために,デモ(Fused)のために反復的に融合することを提案する。
本手法は,複数の主流データセットにラベルを付けることなく,平均3.2%と5.0%の改善を実現する。
論文 参考訳(メタデータ) (2024-02-16T13:13:18Z) - MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with
Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Generalized People Diversity: Learning a Human Perception-Aligned
Diversity Representation for People Images [11.038712922077458]
本稿では,人間の多様性の概念と柔軟に整合する多様な人物画像ランキング手法を提案する。
The Perception-Aligned Text- derived Human representation Space (PATHS)は、人間に関連する多様性のすべてのまたは多くの特徴を捉えることを目的としている。
論文 参考訳(メタデータ) (2024-01-25T17:19:22Z) - Quality Diversity through Human Feedback: Towards Open-Ended Diversity-Driven Optimization [13.436983663467938]
本稿では,ヒトフィードバックによる品質の多様性(QDHF)について紹介する。
実証的な研究によると、QDHFは自動多様性発見において最先端の手法を著しく上回っている。
オープンな生成タスクにおいて、QDHFは拡散モデルからテキストから画像への生成の多様性を大幅に向上させる。
論文 参考訳(メタデータ) (2023-10-18T16:46:16Z) - AlignDiff: Aligning Diverse Human Preferences via Behavior-Customisable
Diffusion Model [69.12623428463573]
AlignDiffは、人間の好みを定量化し、抽象性をカバーし、拡散計画をガイドする新しいフレームワークである。
ユーザがカスタマイズした動作と正確に一致し、効率的に切り替えることができます。
選好マッチング,スイッチング,カバーにおいて,他のベースラインに比べて優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-03T13:53:08Z) - Efficient Diversity-Driven Ensemble for Deep Neural Networks [28.070540722925152]
アンサンブルの多様性と効率の両方に対処するために,効率的なダイバーシティ駆動型アンサンブル(EDDE)を提案する。
他のよく知られたアンサンブル法と比較して、EDDEは訓練コストの低い最も高いアンサンブル精度を得ることができる。
EDDE on Computer Vision (CV) and Natural Language Processing (NLP) task。
論文 参考訳(メタデータ) (2021-12-26T04:28:47Z) - Effective Diversity in Population Based Reinforcement Learning [38.62641968788987]
人口のすべてのメンバを同時に最適化するアプローチを導入する。
対距離を使用するのではなく、行動多様体内の全集団の体積を測定する。
我々のアルゴリズムは、オンライン学習技術を用いて、トレーニング中に多様性の度合いを適応させる。
論文 参考訳(メタデータ) (2020-02-03T10:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。