Fugu-MT 論文翻訳(概要): CDR: Customizable Density Ratios of Strong-over-weak LLMs for Preference Annotation

論文の概要: CDR: Customizable Density Ratios of Strong-over-weak LLMs for Preference Annotation

arxiv url: http://arxiv.org/abs/2411.02481v2
Date: Mon, 11 Nov 2024 17:34:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:44.303489
Title: CDR: Customizable Density Ratios of Strong-over-weak LLMs for Preference Annotation
Title（参考訳）: CDR: 参照アノテーションのための強弱LLMのカスタマイズ可能な密度比
Authors: Guangxuan Xu, Kai Xu, Shivchander Sudalairaj, Hao Wang, Akash Srivastava,
Abstract要約: 大規模言語モデル(LLM)の優先度調整は、高品質な人間の嗜好データに依存している。そこで本研究では,既製のLCMを優先データアノテーションとして活用するトレーニングフリーかつ高効率な手法であるカスタマイズ密度比(CDR)を導入する。本研究では,特定基準と嗜好を組み込んだ密度比報酬関数の調整により,領域内および対象領域内での性能が向上することを示す。
参考スコア（独自算出の注目度）: 15.776175440446414
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Preference tuning of large language models (LLMs) relies on high-quality human preference data, which is often expensive and time-consuming to gather. While existing methods can use trained reward models or proprietary model as judges for preference annotation, they have notable drawbacks: training reward models remain dependent on initial human data, and using proprietary model imposes license restrictions that inhibits commercial usage. In this paper, we introduce customized density ratio (CDR), a training-free and highly effective method that leverages off-the-shelf LLMs for preference data annotation. Our approach uses the log-density ratio between a better-aligned LLM and a less aligned LLM as a reward signal. We explores 221 different LLMs pairs and empirically demonstrate that increasing the performance gap between paired LLMs correlates with better reward generalization. Furthermore, we show that tailoring the density ratio reward function with specific criteria and preference exemplars enhances performance across domains and within target areas. In our experiment using density ratio from a pair of Mistral-7B models, CDR achieves a RewardBench score of 82.6, outperforming the best trained reward functions from same model class and demonstrating competitive performance against SoTA models in Safety (91.0) and Reasoning (88.0) domains. We use CDR to annotate an on-policy preference dataset with which we preference tune Llama-3-8B-Instruct with SimPO. Using reward signals from two relatively weak models, our approach pushes Llama-3-8B to achieve a 37.4% (+15.1%) win rate on ArenaHard and a 40.7% (+17.8%) win rate on Length-Controlled AlpacaEval 2.0, along with a score of 8.0 on MT-Bench.
Abstract（参考訳）: 大規模言語モデル(LLM)の優先度チューニングは、高品質な人間の嗜好データに依存している。既存の手法では、トレーニングされた報酬モデルやプロプライエタリなモデルを好みのアノテーションの判断として使用することができるが、それらは顕著な欠点がある:トレーニングの報酬モデルは初期人間のデータに依存し、プロプライエタリなモデルは商用利用を妨げるライセンス制限を課している。本稿では,既製のLCMを優先データアノテーションとして活用するトレーニングフリーかつ高効率な手法であるカスタマイズ密度比(CDR)について紹介する。提案手法では,LLMとLLMとの対数密度比を報奨信号として用いる。 221の異なるLLMペアを探索し、ペアのLLM間の性能ギャップの増大がより良い報酬一般化と相関していることを実証的に示す。さらに,特定基準と嗜好を組み込んだ密度比報酬関数の調整により,領域内および対象領域内での性能が向上することを示す。 1組のMistral-7Bモデルの密度比を用いて、CDRはRewardBenchスコア82.6を達成し、同じモデルクラスから最高の訓練された報酬関数を上回り、安全性(91.0)およびReasoning(88.0)ドメインにおけるSoTAモデルとの競合性能を実証した。我々はCDRを用いて、SimPOによるLlama-3-8B-インストラクションを優先する、オンデマンドの嗜好データセットをアノテートする。比較的弱い2つのモデルからの報酬信号を用いて、当社のアプローチは、Llama-3-8BをArenaHardで37.4%(+15.1%)の勝利率、Length-Controlled AlpacaEval 2.0で40.7%(+17.8%)の勝利率、MT-Benchで8.0のスコアを達成するように押し付けている。

関連論文リスト

Efficient Online RFT with Plug-and-Play LLM Judges: Unlocking State-of-the-Art Performance [0.0]
リワードモデルトレーニングは、現代の強化学習ヒューマンフィードバック(RLHF)パイプラインのコストボトルネックである。提案手法では, 冷凍型7B LLMを1行とランク16のLORAアダプタで拡張する。プラグ・アンド・プレイの審査員96.2%はRewardBenchの精度を達成し、27Bから70Bパラメータの特殊報酬ネットワークを上回っている。
論文参考訳（メタデータ） (2025-06-06T05:18:54Z)
R.I.P.: Better Models by Survival of the Fittest Prompts [51.2293437372642]
本稿では,低品質入力が高ばらつきと低品質応答をもたらすという仮定に基づいて,データの完全性を評価する手法を提案する。これは、拒否された応答品質と、選択された選好対と拒否された選好対の間の報酬ギャップを測定することで達成される。
論文参考訳（メタデータ） (2025-01-30T18:50:25Z)
Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。当社のアプローチは,DPOをかなりのマージンで継続的に向上させることを示す。本手法は,嗜好データの有用性を最大化するだけでなく,未学習の問題も軽減し,データ拡張を超えてその広範な効果を実証する。
論文参考訳（メタデータ） (2024-10-10T16:01:51Z)
Margin Matching Preference Optimization: Enhanced Model Alignment with Granular Feedback [64.67540769692074]
人間のフィードバックからの強化学習など、アライメント技術で微調整された大規模言語モデル(LLM)は、これまでで最も有能なAIシステムの開発に役立っている。マージンマッチング選好最適化(MMPO)と呼ばれる手法を導入し、相対的な品質マージンを最適化し、LLMポリシーと報酬モデルを改善する。人間とAIの両方のフィードバックデータによる実験によると、MMPOはMT-benchやRewardBenchといった一般的なベンチマークにおいて、ベースラインメソッドよりも一貫してパフォーマンスが向上している。
論文参考訳（メタデータ） (2024-10-04T04:56:11Z)
Generative Reward Models [42.30530024761532]
RLHF(Reinforcement Learning from Human Feedback)は、現代の大規模言語モデル(LLM)の性能を大幅に改善した。近年の研究では、合成選好ラベルは人間の選好判断とうまく一致していないことが示されている。本稿では RLHF と RLAIF の方法論を統一するハイブリッド手法を提案する。以上の結果から,RLHFとRLAIFの強度を組み合わせることで,合成選好ラベルの品質向上が期待できることがわかった。
論文参考訳（メタデータ） (2024-10-02T17:58:39Z)
RRM: Robust Reward Model Training Mitigates Reward Hacking [51.12341734942797]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。これらのアーティファクトとは無関係に好みを学習する因果的枠組みを導入する。実験の結果,提案手法は望ましくないアーティファクトをフィルタし,より堅牢な報酬モデルを実現することができた。
論文参考訳（メタデータ） (2024-09-20T01:46:07Z)
Constructing Domain-Specific Evaluation Sets for LLM-as-a-judge [15.980606104936365]
大規模言語モデル(LLM)は機械学習のランドスケープに革命をもたらしたが、現在のベンチマークは現実世界のアプリケーションでこれらのモデルの多様な振る舞いを捉えるのに不足していることが多い。 Alpaca-Eval 2.0 LC referenceubois2024length controlledalpacaevalsimpleway や Arena-Hard v0.1 citeli2024crowdsourced のような既存のフレームワークは、汎用的なクエリと法、医学、多言語コンテキストといったドメイン間の多様性の欠如によって制限されている。 LLM-asに適したドメイン固有の評価セットをキュレートする新しいデータパイプラインを提案する。
論文参考訳（メタデータ） (2024-08-16T15:41:43Z)
Anchored Preference Optimization and Contrastive Revisions: Addressing Underspecification in Alignment [57.03947082589616]
大規模言語モデル(LLM)は、しばしばコントラスト的なアライメント目標と選好ペアデータセットを使用してアライメントされる。これについて検討し、基礎となる応答が対照的な場合、嗜好データがより良い学習信号を与えることを示した。我々は、よりコントラスト的な選好ペアを生み出すデータ生成手法である、AI Revisions (CLAIR) からのコントラスト学習を紹介する。我々の最良のモデルは、APOで32K CLAIRの選好に基づいて訓練され、Llama-3-8B-Instructを7.65%改善し、GPT4-turboとのギャップを45%短縮しました。
論文参考訳（メタデータ） (2024-08-12T16:24:51Z)
Closing the gap between open-source and commercial large language models for medical evidence summarization [20.60798771155072]
大規模言語モデル(LLM)は、医学的証拠の要約において大きな可能性を秘めている。最近の研究は、プロプライエタリなLLMの応用に焦点を当てている。オープンソースのLLMは透明性とカスタマイズを向上するが、そのパフォーマンスはプロプライエタリなものに比べて低下する。
論文参考訳（メタデータ） (2024-07-25T05:03:01Z)
Foundational Autoraters: Taming Large Language Models for Better Automatic Evaluation [20.41379322900742]
基礎的な大規模オートラタモデルのファミリーであるFLAMeを紹介する。 FLAMeは、100以上の品質評価タスクの大規模で多様なコレクションに基づいて訓練されています。 FLAMeは下流の微調整のための強力な出発点としても機能することを示す。
論文参考訳（メタデータ） (2024-07-15T15:33:45Z)
Spread Preference Annotation: Direct Preference Judgment for Efficient LLM Alignment [72.99676237703099]
大規模言語モデルと人間の嗜好の整合性を高める新しいフレームワークを提案する。私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文参考訳（メタデータ） (2024-06-06T18:01:02Z)
Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文参考訳（メタデータ） (2024-05-01T17:59:20Z)
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文参考訳（メタデータ） (2024-05-01T11:10:24Z)
Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。 GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。嗜好に基づく評価は意図的に操作可能であることを示す。
論文参考訳（メタデータ） (2024-02-17T14:34:31Z)
WARM: On the Benefits of Weight Averaged Reward Models [63.08179139233774]
Weight Averaged Reward Models (WARM) を提案する。最良N法とRL法を用いた要約タスクの実験は、WARMがLLM予測の全体的な品質とアライメントを改善することを示す。
論文参考訳（メタデータ） (2024-01-22T18:27:08Z)
Split and Merge: Aligning Position Biases in LLM-based Evaluators [22.265542509143756]
PortIAは、人間の比較戦略を模倣して位置バイアスを校正するアライメントベースのシステムである。その結果, Portia はテスト対象のモデルと比較形態の整合性を著しく向上させることがわかった。 GPT-4モデルにおける位置バイアスの約80%を修正し、一貫性を98%まで高める。
論文参考訳（メタデータ） (2023-09-29T14:38:58Z)
RAIN: Your Language Models Can Align Themselves without Finetuning [25.703729145091483]
大型言語モデル(LLM)は人間の好みと矛盾することが多い。本研究では,不整合 LLM が自己ブーイングによって直接人間の嗜好に整合した応答を生成可能であることを示す。本稿では,自己回帰推論(Rewindable Auto-Regressive Inference)という新しい推論手法を導入する。
論文参考訳（メタデータ） (2023-09-13T17:59:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。