論文の概要: Are You Sure? Rank Them Again: Repeated Ranking For Better Preference Datasets
- arxiv url: http://arxiv.org/abs/2405.18952v2
- Date: Sat, 1 Jun 2024 02:18:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 11:33:55.624568
- Title: Are You Sure? Rank Them Again: Repeated Ranking For Better Preference Datasets
- Title(参考訳): 正しいか? ランキングがまた変わる: 優先順位データセットの改善のために繰り返しランク付け
- Authors: Peter Devine,
- Abstract要約: AIフィードバックからの強化学習による大規模言語モデルのトレーニングは、モデルの出力と人間の好みをより緊密に調整する。
これには、ユーザプロンプトに対する複数の候補応答をランク付けする評価器モデルが含まれる。
そこで我々は,同じ応答を複数回評価し,一貫してランク付けされている応答のみを訓練する,繰り返しランク付け手法を提案する。
- 参考スコア(独自算出の注目度): 3.8073142980733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training Large Language Models (LLMs) with Reinforcement Learning from AI Feedback (RLAIF) aligns model outputs more closely with human preferences. This involves an evaluator model ranking multiple candidate responses to user prompts. However, the rankings from popular evaluator models such as GPT-4 can be inconsistent. We propose the Repeat Ranking method - where we evaluate the same responses multiple times and train only on those responses which are consistently ranked. Using 2,714 prompts in 62 languages, we generated responses from 7 top multilingual LLMs and had GPT-4 rank them five times each. Evaluating on MT-Bench chat benchmarks in six languages, our method outperformed the standard practice of training on all available prompts. Our work highlights the quality versus quantity trade-off in RLAIF dataset generation and offers a stackable strategy for enhancing dataset and thus model quality.
- Abstract(参考訳): AIフィードバック(RLAIF)による強化学習(Reinforcement Learning from AI Feedback)による大規模言語モデル(LLMs)のトレーニングは、モデルの出力と人間の好みをより緊密に調整する。
これには、ユーザプロンプトに対する複数の候補応答をランク付けする評価器モデルが含まれる。
しかし、GPT-4のような一般的な評価モデルのランキングには矛盾がある。
そこで我々は,同じ応答を複数回評価し,一貫してランク付けされている応答のみを訓練する,繰り返しランク付け手法を提案する。
62言語で2,714のプロンプトを用いて、7つの上位多言語LLMから応答を生成し、それぞれ5倍のGPT-4をランク付けした。
MT-Bench のチャットベンチマークを6言語で評価した結果,提案手法は利用可能なすべてのプロンプトをトレーニングする標準的な手法よりも優れていた。
我々の研究は、RLAIFデータセット生成における品質対量トレードオフを強調し、データセットの拡張とモデル品質のためのスタック可能な戦略を提供する。
関連論文リスト
- A Comparison of LLM Finetuning Methods & Evaluation Metrics with Travel Chatbot Use Case [0.3495246564946556]
本研究では,大規模言語モデル (LLM) の微調整手法について比較する。例えば,量子化低ランク適応器 (QLoRA) ,検索拡張微調整 (RAFT) ,人間フィードバックからの強化学習 (RLHF) などである。
旅行データセットは、旅行関連のサブレディットからの投稿をリクエストして、旅行関連の会話プロンプトとパーソナライズされた旅行体験を取得することでReddit APIからソースされた。
人的評価による最良のモデルといくつかのGPT-4指標はMistral RAFTであり、それによってRLHF(Reinforcement Learning from Human Feedback)トレーニングパイプラインが実行され、最終的には最高の評価を受けた。
論文 参考訳(メタデータ) (2024-08-07T05:52:00Z) - Is Crowdsourcing Breaking Your Bank? Cost-Effective Fine-Tuning of
Pre-trained Language Models with Proximal Policy Optimization [18.75866961339424]
ChatGPTは、人間のフィードバックによる強化学習の可能性を強調している。
労働コストを削減するために,自己監督型テキストランキング手法を提案する。
論文 参考訳(メタデータ) (2024-02-28T12:24:07Z) - LiPO: Listwise Preference Optimization through Learning-to-Rank [62.02782819559389]
ポリシーは、プロンプトによってランク付けされた妥当な応答のリストからより効果的に学習することができる。
LiPO-$lambda$ は DPO 変種と SLiC をいくつかの選好アライメントタスクにおいて明確なマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-02-02T20:08:10Z) - Tuna: Instruction Tuning using Feedback from Large Language Models [74.04950416204551]
本稿では,新しいテキスト確率的ランキングとテキストコンテクスチュアルランキングを用いた命令調整型大規模言語モデルの微調整を提案する。
確率的ランク付けにより、教師のLCMから高品質で低品質なレスポンスの相対的なランク付けを継承することができる。
一方、文脈的ランキングを学習することで、より強いLLMの文脈的理解能力を用いて、モデルが独自の応答分布を洗練できる。
論文 参考訳(メタデータ) (2023-10-20T09:55:06Z) - Benchmarking Cognitive Biases in Large Language Models as Evaluators [16.845939677403287]
大規模言語モデル(LLM)は、簡単なプロンプトと文脈内学習を備えた自動評価器として有効であることが示されている。
我々は,LLMの認知バイアスベンチマークを導入したランキングアウトプットの品質を評価対象として評価する。
LLMはテキスト品質評価器であり、バイアスベンチマークに強い指標を示す。
論文 参考訳(メタデータ) (2023-09-29T06:53:10Z) - PRD: Peer Rank and Discussion Improve Large Language Model based Evaluations [10.709365940160685]
現代の大規模言語モデル(LLM)は、自動評価と比較が難しい。
本稿では,全ての解答対に対するLLMのペアワイズ選好を考慮に入れたピアランク(PR)アルゴリズムを提案する。
我々のアプローチは高い精度を実現し、人間の判断とよく一致していることがわかりました。
論文 参考訳(メタデータ) (2023-07-06T04:05:44Z) - Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。
本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文 参考訳(メタデータ) (2023-06-30T11:32:25Z) - SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization
Evaluation [52.186343500576214]
本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。
SEAHORSEは、テキスト品質の6次元に沿って人間格付けされた96Kの要約で構成されている。
本稿では,SEAHORSEでトレーニングしたメトリクスが,ドメイン外メタ評価ベンチマークTRUEとmFACEで高い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-05-22T16:25:07Z) - Large Language Models are Zero-Shot Rankers for Recommender Systems [76.02500186203929]
本研究では,レコメンダシステムのランキングモデルとして機能する大規模言語モデル(LLM)の能力を検討することを目的とする。
LLMにはゼロショットランキング能力があるが、歴史的相互作用の順序を理解するのに苦労していることを示す。
これらの問題は、特別に設計されたプロンプトとブートストラップ戦略によって緩和可能であることを実証する。
論文 参考訳(メタデータ) (2023-05-15T17:57:39Z) - Is ChatGPT Good at Search? Investigating Large Language Models as
Re-Ranking Agents [56.104476412839944]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。
本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。
LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。
実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文 参考訳(メタデータ) (2023-04-19T10:16:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。