論文の概要: Dr. SoW: Density Ratio of Strong-over-weak LLMs for Reducing the Cost of Human Annotation in Preference Tuning
- arxiv url: http://arxiv.org/abs/2411.02481v3
- Date: Fri, 31 Jan 2025 21:15:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 16:07:43.106302
- Title: Dr. SoW: Density Ratio of Strong-over-weak LLMs for Reducing the Cost of Human Annotation in Preference Tuning
- Title(参考訳): Dr. SoW:Preference Tuningにおけるヒトアノテーションのコスト削減のための強弱LDMの密度比
- Authors: Guangxuan Xu, Kai Xu, Shivchander Sudalairaj, Hao Wang, Akash Srivastava,
- Abstract要約: 本稿では,人間のアノテーションへの依存を解消するコスト効率の高い方法であるDr.SoW(Density Ratio of Strong over Weak)を紹介する。
Dr.SoW は報奨信号として、より整列した LLM と低整列の LLM の対数密度比を用いる。
Dr.SoWによるデータを用いたLlama-3-8B-インストラクタを選好する。
- 参考スコア(独自算出の注目度): 15.776175440446414
- License:
- Abstract: Preference tuning relies on high-quality human preference data, which is often expensive and time-consuming to gather. In this paper, we introduce Dr.SoW (Density Ratio of Strong over Weak) a cost-effective method that eliminates the reliance for human annotation by leveraging off-the-shelf LLMs for preference data annotation. Dr.SoW uses the log-density ratio between a better-aligned and a less-aligned LLM as a reward signal. We evaluate Dr.SoW across 221 different LLM pairs and empirically find a strong correlation between the performance gap of the paired models and the quality of the reward signal. This insight provides a practical guideline for selecting LLMs for data annotation. Additionally, we introduce an end-to-end pipeline that customizes reward functions based on user query domains. Without fine-tuning, it improves accuracy on domain-specific evaluations. With a pair of Mistral-7B models, Dr.SoW achieves a RewardBench score of 82.6, outperforming the best trained reward functions from same model class and demonstrating competitive performance against SoTA models in Safety (91.0) and Reasoning (88.0) domains. Further, we preference-tune Llama-3-8B-Instruct using data annotated by Dr.SoW. Our approach pushes Llama-3-8B to achieve a 37.4 % (+15.1 %) win rate on ArenaHard and a 40.7 % (+17.8 %) win rate on length-controlled AlpacaEval 2.0.
- Abstract(参考訳): 優先度調整は高品質な人間の嗜好データに依存しており、それはしばしば高価で収集に時間がかかる。
本稿では,Dr.SoW(Density Ratio of Strong over Weak)を,市販のLCMを優先データアノテーションとして活用することにより,人間のアノテーションへの依存を解消するコスト効率のよい手法として紹介する。
Dr.SoW は報奨信号として、より整列した LLM と低整列の LLM の対数密度比を用いる。
221種類のLLMペアに対してDr.SoWを評価し、ペアモデルの性能ギャップと報酬信号の品質との間に強い相関関係を経験的に見出した。
この洞察は、データアノテーションのためのLLMを選択するための実用的なガイドラインを提供する。
さらに、ユーザクエリドメインに基づいて報酬関数をカスタマイズするエンドツーエンドパイプラインも導入する。
微調整なしでは、ドメイン固有の評価の精度が向上する。
Mistral-7Bの2つのモデルで、Dr.SoWはRewardBenchスコア82.6を達成し、同じモデルクラスから最高の訓練された報酬関数を上回り、安全性(91.0)とReasoning(88.0)ドメインでのSoTAモデルとの競争性能を実証した。
さらに、Dr.SoWによるデータを用いたLlama-3-8B-インストラクタを選好する。
提案手法はLlama-3-8BをArenaHardで37.4%(+15.1%)、AlpacaEval 2.0で40.7%(+17.8%)の勝利率を達成するよう推し進める。
関連論文リスト
- Margin Matching Preference Optimization: Enhanced Model Alignment with Granular Feedback [64.67540769692074]
人間のフィードバックからの強化学習など、アライメント技術で微調整された大規模言語モデル(LLM)は、これまでで最も有能なAIシステムの開発に役立っている。
マージンマッチング選好最適化(MMPO)と呼ばれる手法を導入し、相対的な品質マージンを最適化し、LLMポリシーと報酬モデルを改善する。
人間とAIの両方のフィードバックデータによる実験によると、MMPOはMT-benchやRewardBenchといった一般的なベンチマークにおいて、ベースラインメソッドよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-10-04T04:56:11Z) - Generative Reward Models [42.30530024761532]
RLHF(Reinforcement Learning from Human Feedback)は、現代の大規模言語モデル(LLM)の性能を大幅に改善した。
近年の研究では、合成選好ラベルは人間の選好判断とうまく一致していないことが示されている。
本稿では RLHF と RLAIF の方法論を統一するハイブリッド手法を提案する。
以上の結果から,RLHFとRLAIFの強度を組み合わせることで,合成選好ラベルの品質向上が期待できることがわかった。
論文 参考訳(メタデータ) (2024-10-02T17:58:39Z) - RRM: Robust Reward Model Training Mitigates Reward Hacking [51.12341734942797]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
これらのアーティファクトとは無関係に好みを学習する因果的枠組みを導入する。
実験の結果,提案手法は望ましくないアーティファクトをフィルタし,より堅牢な報酬モデルを実現することができた。
論文 参考訳(メタデータ) (2024-09-20T01:46:07Z) - Constructing Domain-Specific Evaluation Sets for LLM-as-a-judge [15.980606104936365]
大規模言語モデル(LLM)は機械学習のランドスケープに革命をもたらしたが、現在のベンチマークは現実世界のアプリケーションでこれらのモデルの多様な振る舞いを捉えるのに不足していることが多い。
Alpaca-Eval 2.0 LC referenceubois2024length controlledalpacaevalsimpleway や Arena-Hard v0.1 citeli2024crowdsourced のような既存のフレームワークは、汎用的なクエリと法、医学、多言語コンテキストといったドメイン間の多様性の欠如によって制限されている。
LLM-asに適したドメイン固有の評価セットをキュレートする新しいデータパイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-16T15:41:43Z) - Anchored Preference Optimization and Contrastive Revisions: Addressing Underspecification in Alignment [57.03947082589616]
大規模言語モデル(LLM)は、しばしばコントラスト的なアライメント目標と選好ペアデータセットを使用してアライメントされる。
これについて検討し、基礎となる応答が対照的な場合、嗜好データがより良い学習信号を与えることを示した。
我々は、よりコントラスト的な選好ペアを生み出すデータ生成手法である、AI Revisions (CLAIR) からのコントラスト学習を紹介する。
我々の最良のモデルは、APOで32K CLAIRの選好に基づいて訓練され、Llama-3-8B-Instructを7.65%改善し、GPT4-turboとのギャップを45%短縮しました。
論文 参考訳(メタデータ) (2024-08-12T16:24:51Z) - Closing the gap between open-source and commercial large language models for medical evidence summarization [20.60798771155072]
大規模言語モデル(LLM)は、医学的証拠の要約において大きな可能性を秘めている。
最近の研究は、プロプライエタリなLLMの応用に焦点を当てている。
オープンソースのLLMは透明性とカスタマイズを向上するが、そのパフォーマンスはプロプライエタリなものに比べて低下する。
論文 参考訳(メタデータ) (2024-07-25T05:03:01Z) - Foundational Autoraters: Taming Large Language Models for Better Automatic Evaluation [20.41379322900742]
基礎的な大規模オートラタモデルのファミリーであるFLAMeを紹介する。
FLAMeは、100以上の品質評価タスクの大規模で多様なコレクションに基づいて訓練されています。
FLAMeは下流の微調整のための強力な出発点としても機能することを示す。
論文 参考訳(メタデータ) (2024-07-15T15:33:45Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。
GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。
嗜好に基づく評価は意図的に操作可能であることを示す。
論文 参考訳(メタデータ) (2024-02-17T14:34:31Z) - WARM: On the Benefits of Weight Averaged Reward Models [63.08179139233774]
Weight Averaged Reward Models (WARM) を提案する。
最良N法とRL法を用いた要約タスクの実験は、WARMがLLM予測の全体的な品質とアライメントを改善することを示す。
論文 参考訳(メタデータ) (2024-01-22T18:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。