Fugu-MT 論文翻訳(概要): UltraFeedback: Boosting Language Models with High-quality Feedback

論文の概要: UltraFeedback: Boosting Language Models with High-quality Feedback

arxiv url: http://arxiv.org/abs/2310.01377v1
Date: Mon, 2 Oct 2023 17:40:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-04 20:30:50.202631
Title: UltraFeedback: Boosting Language Models with High-quality Feedback
Title（参考訳）: UltraFeedback: 高品質なフィードバックを備えた言語モデル
Authors: Ganqu Cui, Lifan Yuan, Ning Ding, Guanming Yao, Wei Zhu, Yuan Ni, Guotong Xie, Zhiyuan Liu, Maosong Sun
Abstract要約: 人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)と人間の嗜好の整合において重要な技術となっている。現在の選好データセットは、プロプライエタリなものか、サイズが限定されているか、あるいはプロプライエタリなものかのいずれかで、オープンソースモデルでのRLHFの採用が制限されている。本稿では,これらの制限を克服し,RLHF開発を促進するために,大規模で高品質で多様な嗜好データセットを提案する。
参考スコア（独自算出の注目度）: 77.55342076933047
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Reinforcement learning from human feedback (RLHF) has become a pivot technique in aligning large language models (LLMs) with human preferences. In RLHF practice, preference data plays a crucial role in bridging human proclivity and LLMs. However, the scarcity of diverse, naturalistic datasets of human preferences on LLM outputs at scale poses a great challenge to RLHF as well as feedback learning research within the open-source community. Current preference datasets, either proprietary or limited in size and prompt variety, result in limited RLHF adoption in open-source models and hinder further exploration. In this study, we propose ULTRAFEEDBACK, a large-scale, high-quality, and diversified preference dataset designed to overcome these limitations and foster RLHF development. To create ULTRAFEEDBACK, we compile a diverse array of instructions and models from multiple sources to produce comparative data. We meticulously devise annotation instructions and employ GPT-4 to offer detailed feedback in both numerical and textual forms. ULTRAFEEDBACK establishes a reproducible and expandable preference data construction pipeline, serving as a solid foundation for future RLHF and feedback learning research. Utilizing ULTRAFEEDBACK, we train various models to demonstrate its effectiveness, including the reward model UltraRM, chat language model UltraLM-13B-PPO, and critique model UltraCM. Experimental results indicate that our models outperform existing open-source models, achieving top performance across multiple benchmarks. Our data and models are available at https://github.com/thunlp/UltraFeedback.
Abstract（参考訳）: 人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)と人間の嗜好の整合において重要な技術となっている。 RLHFの実践では、嗜好データは人間の生産性とLLMをブリッジする上で重要な役割を果たす。しかしながら、LLM出力に対する人間の嗜好に関する多様で自然主義的なデータセットの欠如は、オープンソースコミュニティ内のフィードバック学習研究だけでなく、RLHFにとって大きな課題となっている。現在のプライオリティデータセットは、プロプライエタリか、サイズとプロンプトのバラエティに制限があるが、オープンソースモデルでのrlhfの採用が制限され、さらなる調査が妨げられる。本研究では,これらの制限を克服し,RLHF開発を促進するために設計された大規模で高品質で多様な選好データセットであるULTRAFEEDBACKを提案する。 ULTRAFEEDBACKを作成するために、複数のソースから多様な命令とモデルをコンパイルし、比較データを生成する。我々はアノテーション命令を慎重に考案し、GPT-4を用いて数値とテキストの双方で詳細なフィードバックを提供する。 ULTRAFEEDBACKは再現可能で拡張可能な好みデータ構築パイプラインを確立し、将来のRLHFとフィードバック学習研究の基盤となる。 ULTRAFEEDBACKを用いて、報酬モデルUltraRM、チャット言語モデルUltraLM-13B-PPO、批判モデルUltraCMなど、様々なモデルをトレーニングし、その効果を実証する。実験の結果,我々のモデルは既存のオープンソースモデルより優れており,複数のベンチマークで最高の性能を達成していることがわかった。我々のデータとモデルはhttps://github.com/thunlp/UltraFeedback.comで利用可能です。

関連論文リスト

Self-Evolved Reward Learning for LLMs [45.6910747154447]
RLHF(Reinforcement Learning from Human Feedback)は、言語モデルと人間の嗜好を整合させる重要な手法である。本稿では、RMが反復的に自己改善するための追加のトレーニングデータを生成する新しいアプローチである自己進化リワード学習(SER:Self-Evolved Reward Learning)を提案する。以上の結果から,人間による注釈付きデータであっても,自己フィードバックから学習することで,RM性能が向上することが示唆された。
論文参考訳（メタデータ） (2024-11-01T07:29:03Z)
VLFeedback: A Large-Scale AI Feedback Dataset for Large Vision-Language Models Alignment [55.7956150385255]
本稿では,視覚言語モデルの整合性向上のためのAIフィードバックの有効性について検討する。最初の大規模視覚言語フィードバックデータセットであるVLFeedbackを紹介する。我々は、VLFeedback上で直接選好最適化によって微調整されたLVLMであるSilkieを訓練する。
論文参考訳（メタデータ） (2024-10-12T07:56:47Z)
Learning from Naturally Occurring Feedback [25.266461597402056]
チャットモデルと対話する際にユーザが自然に含むフィードバックを抽出するスケーラブルな方法を提案する。我々は,自然に発生するフィードバックの存在を確認するために,会話データを手動でアノテートした。 100万件以上の会話に本手法を適用し,数十万件のフィードバックサンプルを得た。
論文参考訳（メタデータ） (2024-07-15T17:41:34Z)
Aligning Large Language Models from Self-Reference AI Feedback with one General Principle [61.105703857868775]
13B Llama2-Chatで高品質なフィードバックを提供できる自己参照型AIフィードバックフレームワークを提案する。具体的には、まずAIがユーザーの指示に反応し、それに基づいて他の回答に対する批判を参照として生成する。最後に、批判に応じて、どの回答が人間の好みに合うかを判断する。
論文参考訳（メタデータ） (2024-06-17T03:51:46Z)
Inverse Constitutional AI: Compressing Preferences into Principles [37.28372419588119]
Inverse Constitutional AI (ICAI) の問題に目を向ける。 ICAIでは、フィードバックと微調整AIモデルを提供するために一連の原則が使用される。初期ICAIアルゴリズムを提案し,その構成を検証した。
論文参考訳（メタデータ） (2024-06-02T11:54:50Z)
Data-Efficient Alignment of Large Language Models with Human Feedback Through Natural Language [31.0723480021355]
自然言語による人間のフィードバックをモデル化する際のデータ効率について検討する。オープンソースLLM(例えばFalcon-40B-Instruct)を、自然言語における人間のフィードバックの比較的少ない部分で微調整する。このモデルは,最強のLLMでも応答の質を向上させることができることを示す。
論文参考訳（メタデータ） (2023-11-24T15:20:36Z)
Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文参考訳（メタデータ） (2023-10-10T09:20:14Z)
Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。 ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文参考訳（メタデータ） (2023-03-28T17:04:15Z)
Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文参考訳（メタデータ） (2023-02-06T10:28:16Z)
Training Language Models with Natural Language Feedback [51.36137482891037]
3段階学習アルゴリズムを用いてモデル出力の言語フィードバックから学習する。合成実験において、まず言語モデルがフィードバックを正確に組み込んで改良を行うかどうかを評価する。人間の手書きフィードバックのサンプルは100程度しかなく, 学習アルゴリズムはGPT-3モデルを微調整し, ほぼ人間レベルの要約を行う。
論文参考訳（メタデータ） (2022-04-29T15:06:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。