論文の概要: CDR: Customizable Density Ratios of Strong-over-weak LLMs for Preference Annotation
- arxiv url: http://arxiv.org/abs/2411.02481v2
- Date: Mon, 11 Nov 2024 17:34:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:05:59.985186
- Title: CDR: Customizable Density Ratios of Strong-over-weak LLMs for Preference Annotation
- Title(参考訳): CDR: 参照アノテーションのための強弱LLMのカスタマイズ可能な密度比
- Authors: Guangxuan Xu, Kai Xu, Shivchander Sudalairaj, Hao Wang, Akash Srivastava,
- Abstract要約: 大規模言語モデル(LLM)の優先度調整は、高品質な人間の嗜好データに依存している。
そこで本研究では,既製のLCMを優先データアノテーションとして活用するトレーニングフリーかつ高効率な手法であるカスタマイズ密度比(CDR)を導入する。
本研究では,特定基準と嗜好を組み込んだ密度比報酬関数の調整により,領域内および対象領域内での性能が向上することを示す。
- 参考スコア(独自算出の注目度): 15.776175440446414
- License:
- Abstract: Preference tuning of large language models (LLMs) relies on high-quality human preference data, which is often expensive and time-consuming to gather. While existing methods can use trained reward models or proprietary model as judges for preference annotation, they have notable drawbacks: training reward models remain dependent on initial human data, and using proprietary model imposes license restrictions that inhibits commercial usage. In this paper, we introduce customized density ratio (CDR), a training-free and highly effective method that leverages off-the-shelf LLMs for preference data annotation. Our approach uses the log-density ratio between a better-aligned LLM and a less aligned LLM as a reward signal. We explores 221 different LLMs pairs and empirically demonstrate that increasing the performance gap between paired LLMs correlates with better reward generalization. Furthermore, we show that tailoring the density ratio reward function with specific criteria and preference exemplars enhances performance across domains and within target areas. In our experiment using density ratio from a pair of Mistral-7B models, CDR achieves a RewardBench score of 82.6, outperforming the best trained reward functions from same model class and demonstrating competitive performance against SoTA models in Safety (91.0) and Reasoning (88.0) domains. We use CDR to annotate an on-policy preference dataset with which we preference tune Llama-3-8B-Instruct with SimPO. Using reward signals from two relatively weak models, our approach pushes Llama-3-8B to achieve a 37.4% (+15.1%) win rate on ArenaHard and a 40.7% (+17.8%) win rate on Length-Controlled AlpacaEval 2.0, along with a score of 8.0 on MT-Bench.
- Abstract(参考訳): 大規模言語モデル(LLM)の優先度チューニングは、高品質な人間の嗜好データに依存している。
既存の手法では、トレーニングされた報酬モデルやプロプライエタリなモデルを好みのアノテーションの判断として使用することができるが、それらは顕著な欠点がある:トレーニングの報酬モデルは初期人間のデータに依存し、プロプライエタリなモデルは商用利用を妨げるライセンス制限を課している。
本稿では,既製のLCMを優先データアノテーションとして活用するトレーニングフリーかつ高効率な手法であるカスタマイズ密度比(CDR)について紹介する。
提案手法では,LLMとLLMとの対数密度比を報奨信号として用いる。
221の異なるLLMペアを探索し、ペアのLLM間の性能ギャップの増大がより良い報酬一般化と相関していることを実証的に示す。
さらに,特定基準と嗜好を組み込んだ密度比報酬関数の調整により,領域内および対象領域内での性能が向上することを示す。
1組のMistral-7Bモデルの密度比を用いて、CDRはRewardBenchスコア82.6を達成し、同じモデルクラスから最高の訓練された報酬関数を上回り、安全性(91.0)およびReasoning(88.0)ドメインにおけるSoTAモデルとの競合性能を実証した。
我々はCDRを用いて、SimPOによるLlama-3-8B-インストラクションを優先する、オンデマンドの嗜好データセットをアノテートする。
比較的弱い2つのモデルからの報酬信号を用いて、当社のアプローチは、Llama-3-8BをArenaHardで37.4%(+15.1%)の勝利率、Length-Controlled AlpacaEval 2.0で40.7%(+17.8%)の勝利率、MT-Benchで8.0のスコアを達成するように押し付けている。
関連論文リスト
- How to Evaluate Reward Models for RLHF [51.31240621943791]
我々は、RLHF(Reinforcement Learning from Human Feedback)を通して強力な言語モデルを生成する能力を定量化する報酬モデルのための新しいベンチマークを導入する。
我々は,プロキシタスクの報酬モデルを評価することにより,下流LLM性能の予測モデルを構築した。
大規模クラウドソースによる人選好プラットフォーム上でのエンドツーエンドのRLHF実験をローンチした。
論文 参考訳(メタデータ) (2024-10-18T21:38:21Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Generative Reward Models [42.30530024761532]
RLHF(Reinforcement Learning from Human Feedback)は、現代の大規模言語モデル(LLM)の性能を大幅に改善した。
近年の研究では、合成選好ラベルは人間の選好判断とうまく一致していないことが示されている。
本稿では RLHF と RLAIF の方法論を統一するハイブリッド手法を提案する。
以上の結果から,RLHFとRLAIFの強度を組み合わせることで,合成選好ラベルの品質向上が期待できることがわかった。
論文 参考訳(メタデータ) (2024-10-02T17:58:39Z) - Constructing Domain-Specific Evaluation Sets for LLM-as-a-judge [15.980606104936365]
大規模言語モデル(LLM)は機械学習のランドスケープに革命をもたらしたが、現在のベンチマークは現実世界のアプリケーションでこれらのモデルの多様な振る舞いを捉えるのに不足していることが多い。
Alpaca-Eval 2.0 LC referenceubois2024length controlledalpacaevalsimpleway や Arena-Hard v0.1 citeli2024crowdsourced のような既存のフレームワークは、汎用的なクエリと法、医学、多言語コンテキストといったドメイン間の多様性の欠如によって制限されている。
LLM-asに適したドメイン固有の評価セットをキュレートする新しいデータパイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-16T15:41:43Z) - Closing the gap between open-source and commercial large language models for medical evidence summarization [20.60798771155072]
大規模言語モデル(LLM)は、医学的証拠の要約において大きな可能性を秘めている。
最近の研究は、プロプライエタリなLLMの応用に焦点を当てている。
オープンソースのLLMは透明性とカスタマイズを向上するが、そのパフォーマンスはプロプライエタリなものに比べて低下する。
論文 参考訳(メタデータ) (2024-07-25T05:03:01Z) - Foundational Autoraters: Taming Large Language Models for Better Automatic Evaluation [20.41379322900742]
基礎的な大規模オートラタモデルのファミリーであるFLAMeを紹介する。
FLAMeは、100以上の品質評価タスクの大規模で多様なコレクションに基づいて訓練されています。
FLAMeは下流の微調整のための強力な出発点としても機能することを示す。
論文 参考訳(メタデータ) (2024-07-15T15:33:45Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。
GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。
嗜好に基づく評価は意図的に操作可能であることを示す。
論文 参考訳(メタデータ) (2024-02-17T14:34:31Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。