論文の概要: UltraFeedback: Boosting Language Models with Scaled AI Feedback
- arxiv url: http://arxiv.org/abs/2310.01377v2
- Date: Tue, 16 Jul 2024 03:24:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 00:00:40.100260
- Title: UltraFeedback: Boosting Language Models with Scaled AI Feedback
- Title(参考訳): UltraFeedback: 大規模AIフィードバックによる言語モデルの強化
- Authors: Ganqu Cui, Lifan Yuan, Ning Ding, Guanming Yao, Bingxiang He, Wei Zhu, Yuan Ni, Guotong Xie, Ruobing Xie, Yankai Lin, Zhiyuan Liu, Maosong Sun,
- Abstract要約: 大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
- 参考スコア(独自算出の注目度): 99.4633351133207
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Learning from human feedback has become a pivot technique in aligning large language models (LLMs) with human preferences. However, acquiring vast and premium human feedback is bottlenecked by time, labor, and human capability, resulting in small sizes or limited topics of current datasets. This further hinders feedback learning as well as alignment research within the open-source community. To address this issue, we explore how to go beyond human feedback and collect high-quality \textit{AI feedback} automatically for a scalable alternative. Specifically, we identify \textbf{scale and diversity} as the key factors for feedback data to take effect. Accordingly, we first broaden instructions and responses in both amount and breadth to encompass a wider range of user-assistant interactions. Then, we meticulously apply a series of techniques to mitigate annotation biases for more reliable AI feedback. We finally present \textsc{UltraFeedback}, a large-scale, high-quality, and diversified AI feedback dataset, which contains over 1 million GPT-4 feedback for 250k user-assistant conversations from various aspects. Built upon \textsc{UltraFeedback}, we align a LLaMA-based model by best-of-$n$ sampling and reinforcement learning, demonstrating its exceptional performance on chat benchmarks. Our work validates the effectiveness of scaled AI feedback data in constructing strong open-source chat language models, serving as a solid foundation for future feedback learning research. Our data and models are available at https://github.com/thunlp/UltraFeedback.
- Abstract(参考訳): 人間からのフィードバックから学ぶことは、大きな言語モデル(LLM)と人間の好みを整合させる重要なテクニックとなっている。
しかし、膨大な量の人的フィードバックを取得することは、時間、労力、人的能力によってボトルネックとなり、結果として、現在のデータセットの小さなサイズや限られたトピックが生まれる。
これにより、フィードバック学習だけでなく、オープンソースコミュニティ内のアライメント調査も妨げられます。
この問題に対処するために,人間のフィードバックを超えて,スケーラブルな代替手段として高品質な‘textit{AI feedback’を自動的に収集する方法を検討する。
具体的には,フィードバックデータに影響を及ぼす重要な要因として,‘textbf{scale and diversity} を同定する。
そこで,我々はまず,幅広いユーザ・アシスタントインタラクションを包含するために,量と幅の両方で指示と応答を広げる。
そして、より信頼性の高いAIフィードバックに対するアノテーションバイアスを軽減するために、慎重に一連のテクニックを適用します。
我々はついに、大規模で高品質で多様なAIフィードバックデータセットである‘textsc{UltraFeedback}を提示した。
textsc{UltraFeedback}に基づいて構築され、LLaMAベースのモデルをベスト・オブ・n$のサンプリングと強化学習によって整列させ、チャットベンチマークで例外的なパフォーマンスを示す。
我々の研究は、オープンソースのチャット言語モデルの構築におけるスケールドAIフィードバックデータの有効性を検証し、将来のフィードバック学習研究の基盤となる。
我々のデータとモデルはhttps://github.com/thunlp/UltraFeedback.comで利用可能です。
関連論文リスト
- VLFeedback: A Large-Scale AI Feedback Dataset for Large Vision-Language Models Alignment [55.7956150385255]
本稿では,視覚言語モデルの整合性向上のためのAIフィードバックの有効性について検討する。
最初の大規模視覚言語フィードバックデータセットであるVLFeedbackを紹介する。
我々は、VLFeedback上で直接選好最適化によって微調整されたLVLMであるSilkieを訓練する。
論文 参考訳(メタデータ) (2024-10-12T07:56:47Z) - Learning from Naturally Occurring Feedback [25.266461597402056]
チャットモデルと対話する際にユーザが自然に含むフィードバックを抽出するスケーラブルな方法を提案する。
我々は,自然に発生するフィードバックの存在を確認するために,会話データを手動でアノテートした。
100万件以上の会話に本手法を適用し,数十万件のフィードバックサンプルを得た。
論文 参考訳(メタデータ) (2024-07-15T17:41:34Z) - Aligning Large Language Models from Self-Reference AI Feedback with one General Principle [61.105703857868775]
13B Llama2-Chatで高品質なフィードバックを提供できる自己参照型AIフィードバックフレームワークを提案する。
具体的には、まずAIがユーザーの指示に反応し、それに基づいて他の回答に対する批判を参照として生成する。
最後に、批判に応じて、どの回答が人間の好みに合うかを判断する。
論文 参考訳(メタデータ) (2024-06-17T03:51:46Z) - Inverse Constitutional AI: Compressing Preferences into Principles [37.28372419588119]
Inverse Constitutional AI (ICAI) の問題に目を向ける。
ICAIでは、フィードバックと微調整AIモデルを提供するために一連の原則が使用される。
初期ICAIアルゴリズムを提案し,その構成を検証した。
論文 参考訳(メタデータ) (2024-06-02T11:54:50Z) - Data-Efficient Alignment of Large Language Models with Human Feedback
Through Natural Language [31.0723480021355]
自然言語による人間のフィードバックをモデル化する際のデータ効率について検討する。
オープンソースLLM(例えばFalcon-40B-Instruct)を、自然言語における人間のフィードバックの比較的少ない部分で微調整する。
このモデルは,最強のLLMでも応答の質を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-11-24T15:20:36Z) - Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。
我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。
このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文 参考訳(メタデータ) (2023-10-10T09:20:14Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z) - Training Language Models with Natural Language Feedback [51.36137482891037]
3段階学習アルゴリズムを用いてモデル出力の言語フィードバックから学習する。
合成実験において、まず言語モデルがフィードバックを正確に組み込んで改良を行うかどうかを評価する。
人間の手書きフィードバックのサンプルは100程度しかなく, 学習アルゴリズムはGPT-3モデルを微調整し, ほぼ人間レベルの要約を行う。
論文 参考訳(メタデータ) (2022-04-29T15:06:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。