論文の概要: Clear Preferences Leave Traces: Reference Model-Guided Sampling for Preference Learning
- arxiv url: http://arxiv.org/abs/2501.15109v1
- Date: Sat, 25 Jan 2025 07:21:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:58:50.287847
- Title: Clear Preferences Leave Traces: Reference Model-Guided Sampling for Preference Learning
- Title(参考訳): 明快な選好の痕跡: 選好学習のための参照モデルガイドサンプリング
- Authors: Nirav Diwan, Tolga Ergen, Dongsub Shim, Honglak Lee,
- Abstract要約: 直接選好最適化(DPO)は、言語モデルと人間の選好を整合させるデファクトアプローチとして登場した。
最近の研究によると、DPOの有効性はデータ品質のトレーニングに依存している。
基準モデル確率空間は,高品質なトレーニングサンプルを自然に検出する。
- 参考スコア(独自算出の注目度): 59.11519451499754
- License:
- Abstract: Direct Preference Optimization (DPO) has emerged as a de-facto approach for aligning language models with human preferences. Recent work has shown DPO's effectiveness relies on training data quality. In particular, clear quality differences between preferred and rejected responses enhance learning performance. Current methods for identifying and obtaining such high-quality samples demand additional resources or external models. We discover that reference model probability space naturally detects high-quality training samples. Using this insight, we present a sampling strategy that achieves consistent improvements (+0.1 to +0.4) on MT-Bench while using less than half (30-50%) of the training data. We observe substantial improvements (+0.4 to +0.98) for technical tasks (coding, math, and reasoning) across multiple models and hyperparameter settings.
- Abstract(参考訳): 直接選好最適化(DPO)は、言語モデルと人間の選好を整合させるデファクトアプローチとして登場した。
最近の研究によると、DPOの有効性はデータ品質のトレーニングに依存している。
特に、優先応答と拒否応答の明確な品質差は、学習性能を高める。
このような高品質なサンプルを識別し入手するための現在の手法は、追加のリソースや外部モデルを必要とする。
基準モデル確率空間は,高品質なトレーニングサンプルを自然に検出する。
この知見を用いて,MT-Bench における一貫した改善 (+0.1 から +0.4 ) を実現するとともに,トレーニングデータの半減 (30-50% 未満) を用いてサンプリング戦略を提案する。
我々は,複数のモデルおよびハイパーパラメータ設定における技術的タスク(コーディング,数学,推論)の大幅な改善(+0.4から+0.98)を観察した。
関連論文リスト
- Optimizing LLMs with Direct Preferences: A Data Efficiency Perspective [4.548047308860141]
本研究では,異なる種類の嗜好データがモデル性能に与える影響について検討する。
収集に費用がかかる大量の好みデータへの依存を減らすことを目的としている。
論文 参考訳(メタデータ) (2024-10-22T00:11:41Z) - When Does Visual Prompting Outperform Linear Probing for Vision-Language Models? A Likelihood Perspective [57.05315507519704]
本稿では,視覚的プロンプトと線形探索の利点を比較分析するために,ログ類似率(LLR)アプローチを提案する。
本測定は,最大で100倍の時間短縮が可能であり,予測精度は最大91%に達する。
論文 参考訳(メタデータ) (2024-09-03T12:03:45Z) - Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback [110.16220825629749]
嗜好フィードバックからの学習は、現代言語モデルの生成品質と性能を改善するための重要なステップとして現れてきた。
本研究では、嗜好データ、学習アルゴリズム、報酬モデル、政策訓練プロンプトという、嗜好に基づく学習の4つの側面を特定する。
以上の結果から,すべての側面がパフォーマンス上重要であることが示唆された。
論文 参考訳(メタデータ) (2024-06-13T16:17:21Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Towards An Online Incremental Approach to Predict Students Performance [0.8287206589886879]
本稿では,オンライン分類器を更新するためのメモリベースのオンラインインクリメンタル学習手法を提案する。
提案手法は,現在の最先端技術と比較して10%近く向上し,モデル精度の顕著な向上を実現している。
論文 参考訳(メタデータ) (2024-05-03T17:13:26Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Revisiting Sample Size Determination in Natural Language Understanding [18.637079595450366]
特定のモデルのパフォーマンスを達成するために、どれだけのデータポイントをラベル付けする必要があるかを正確に知ることは、アノテーションの全体的な予算を削減するための有益なステップである。
我々は,少量のトレーニングサンプルに基づいて,達成可能なモデルの最大性能を予測するための,シンプルで効果的な手法を導出した。
論文 参考訳(メタデータ) (2023-07-01T16:08:52Z) - ZeroGen$^+$: Self-Guided High-Quality Data Generation in Efficient
Zero-Shot Learning [97.2907428983142]
ZeroGenは、純粋にPLMを使用してデータを生成し、タスク固有のアノテーションに頼ることなく、小さなモデルをトレーニングする。
金のデータを必要とせずに、サンプルごとの重み付けを学習できるノイズローバストなバイレベル再重み付けフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:38:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。