論文の概要: DRIFT: Learning from Abundant User Dissatisfaction in Real-World Preference Learning
- arxiv url: http://arxiv.org/abs/2510.02341v1
- Date: Sat, 27 Sep 2025 03:06:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.018109
- Title: DRIFT: Learning from Abundant User Dissatisfaction in Real-World Preference Learning
- Title(参考訳): DRIFT: 実世界の嗜好学習におけるユーザ不満足から学ぶ
- Authors: Yifan Wang, Bolian Li, Junlin Wu, Zhaoxuan Tan, Zheli Liu, Ruqi Zhang, Ananth Grama, Qingkai Zeng,
- Abstract要約: textbfDRIFT (textbfDis-textbfRefined textbfFerence textbfTraining) を導入する。
実世界のテキストでトレーニングされたDRIFTモデルWildFeedbackデータセットはWildBench Task Score上で最大+6.23% (7B) / +7.61% (14B)、最大+8.95% (7B) / +を達成している。
- 参考スコア(独自算出の注目度): 43.698788115019376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world large language model deployments (e.g., conversational AI systems, code generation assistants) naturally generate abundant implicit user dissatisfaction (DSAT) signals, as users iterate toward better answers through refinements, corrections, and expressed preferences, while explicit satisfaction (SAT) feedback is scarce. Existing preference learning approaches are poorly aligned with this data profile, as they rely on costly human annotations or assume plentiful positive responses. In this paper, we introduce \textbf{DRIFT} (\textbf{D}issatisfaction-\textbf{R}efined \textbf{I}terative pre\textbf{F}erence \textbf{T}raining), which anchors training on real-world DSAT signals and samples positives dynamically from the evolving policy. Empirically, DRIFT models trained on real-world \textit{WildFeedback} datasets and synthetic \textit{UltraFeedback} datasets achieve up to +6.23\% (7B) / +7.61\% (14B) on WildBench Task Score and up to +8.95\% (7B) / +12.29\% (14B) on AlpacaEval2 win rate over base models, outperforming strong baseline methods such as iterative DPO and SPIN. At larger scales, the improvements are particularly pronounced: 14B models trained with DRIFT surpass GPT-4o-mini on WildBench. Further analysis shows that DRIFT also preserves exploratory capacity, yielding more diverse high-reward solutions rather than collapsing to narrow subsets. Theoretically, we demonstrate that this design preserves preference margins and avoids the gradient degeneration. These results show that DRIFT is an effective and scalable recipe for real-world post-training that leverages the most abundant and informative signal. The code and data are available at https://github.com/cacayaya/DRIFT.git.
- Abstract(参考訳): 現実世界の大規模言語モデルのデプロイメント(会話型AIシステム、コード生成アシスタントなど)は、ユーザが改善、修正、表現された嗜好を通じてより良い回答を反復する一方で、明示的な満足度(SAT)フィードバックが不足しているため、自然に豊富な暗黙のユーザ不満(DSAT)信号を生成する。
既存の嗜好学習アプローチはこのデータプロファイルと不一致である。
本稿では、現実のDSAT信号のトレーニングを固定し、進化するポリシーから正のサンプルを動的に抽出する、 \textbf{D}issatisfaction-\textbf{R}efined \textbf{I}terative pre\textbf{F}erence \textbf{T}rainingを紹介する。
実証的に、DRIFTモデルは実世界のtextit{WildFeedback}データセットと合成された \textit{UltraFeedback}データセットでトレーニングされ、WildBench Task Score上では+6.23\% (7B) / +7.61\% (14B)、AlpacaEval2上では+8.95\% (7B) / +12.29\% (14B) に到達し、反復的なDPOやSPINのような強力なベースライン手法よりも優れている。
DRIFTで訓練された14BモデルはWildBenchのGPT-4o-miniを上回った。
さらなる分析により、DRIFTは探索能力も保ち、狭い部分集合に崩壊するのではなく、より多様な高逆解をもたらすことが示されている。
理論的には、この設計は嗜好のマージンを保ち、勾配劣化を避けることを実証する。
これらの結果から,DRIFTは実世界のポストトレーニングにおいて,最も豊富で情報に富む信号を活用する効果的でスケーラブルなレシピであることが示唆された。
コードとデータはhttps://github.com/cacayaya/DRIFT.git.comで公開されている。
関連論文リスト
- Best Policy Learning from Trajectory Preference Feedback [11.896067099790962]
推論ベースの強化学習(PbRL)は、より堅牢な代替手段を提供する。
本稿では, PbRLにおける最適政策識別問題について検討し, 生成モデルの学習後最適化を動機とした。
本稿では,Top-Two Thompson Smplingにヒントを得た新しいアルゴリズムであるPosterior Smpling for Preference Learning(mathsfPSPL$)を提案する。
論文 参考訳(メタデータ) (2025-01-31T03:55:10Z) - REST: Enhancing Group Robustness in DNNs through Reweighted Sparse
Training [49.581884130880944]
ディープニューラルネットワーク(DNN)は様々な領域で有効であることが証明されている。
しかし、彼らは推論中に一部の少数派でうまく行動するのに苦労することが多い。
論文 参考訳(メタデータ) (2023-12-05T16:27:54Z) - SMaRt: Improving GANs with Score Matching Regularity [114.43433222721025]
生成的敵ネットワーク(GAN)は通常、基礎となる多様体が複雑である非常に多様なデータから学ぶのに苦労する。
スコアマッチングは、生成したデータポイントを実データ多様体へ持続的にプッシュする能力のおかげで、この問題に対する有望な解決策であることがわかった。
提案手法は, 実世界のデータセットにおいて, 近似スコア関数として機能する事前学習拡散モデルを用いて, 最先端のGANの性能を継続的に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-11-30T03:05:14Z) - Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - Injecting Knowledge in Data-driven Vehicle Trajectory Predictors [82.91398970736391]
車両軌道予測タスクは、一般的に知識駆動とデータ駆動の2つの視点から取り組まれている。
本稿では,これら2つの視点を効果的に結合する「現実的残留ブロック」 (RRB) の学習を提案する。
提案手法は,残留範囲を限定し,その不確実性を考慮した現実的な予測を行う。
論文 参考訳(メタデータ) (2021-03-08T16:03:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。