論文の概要: Generalizing while preserving monotonicity in comparison-based preference learning models
- arxiv url: http://arxiv.org/abs/2506.08616v1
- Date: Tue, 10 Jun 2025 09:24:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.160696
- Title: Generalizing while preserving monotonicity in comparison-based preference learning models
- Title(参考訳): 比較に基づく選好学習モデルにおける単調性を保ったままの一般化
- Authors: Julien Fageot, Peva Blanchard, Gilles Bareilles, Lê-Nguyên Hoang,
- Abstract要約: 拡散優先度を持つ線形一般化ブラッドレー・テリーモデルの新しいクラスを提案する。
実験の結果,新しい一般化モデルでは,特にデータセットが限定された場合,精度が向上することがわかった。
- 参考スコア(独自算出の注目度): 8.118449359076438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: If you tell a learning model that you prefer an alternative $a$ over another alternative $b$, then you probably expect the model to be monotone, that is, the valuation of $a$ increases, and that of $b$ decreases. Yet, perhaps surprisingly, many widely deployed comparison-based preference learning models, including large language models, fail to have this guarantee. Until now, the only comparison-based preference learning algorithms that were proved to be monotone are the Generalized Bradley-Terry models. Yet, these models are unable to generalize to uncompared data. In this paper, we advance the understanding of the set of models with generalization ability that are monotone. Namely, we propose a new class of Linear Generalized Bradley-Terry models with Diffusion Priors, and identify sufficient conditions on alternatives' embeddings that guarantee monotonicity. Our experiments show that this monotonicity is far from being a general guarantee, and that our new class of generalizing models improves accuracy, especially when the dataset is limited.
- Abstract(参考訳): 別の代替の$b$よりも$a$の方が好ましいと学習モデルに言えば、おそらくモデルはモノトーン、すなわち$a$の値上がり、$b$の値下がりを期待するでしょう。
しかし、おそらく驚くべきことに、大きな言語モデルを含む多くの広くデプロイされた比較ベースの嗜好学習モデルは、この保証を持っていない。
これまで、単調であることが証明された比較に基づく選好学習アルゴリズムは、一般化されたブラッドリー・テリーモデルのみであった。
しかし、これらのモデルは非競合データに一般化できない。
本稿では,単調な一般化能力を持つモデルの集合の理解を深める。
すなわち,Diffusion Priorsを用いた線形一般化Bradley-Terryモデルの新たなクラスを提案し,単調性を保証する代替品の埋め込みに関する十分な条件を同定する。
我々の実験は、この単調性は一般的な保証には程遠いことを示し、新しい一般化モデルのクラスは、特にデータセットが制限されている場合、精度を向上することを示した。
関連論文リスト
- Mean estimation in the add-remove model of differential privacy [20.78625240235862]
加算除去モデルに基づく一次元平均推定問題について検討する。
提案アルゴリズムは,実際に頻繁に使用されるアルゴリズムよりも,平均2乗誤差が2倍に向上することを示す。
論文 参考訳(メタデータ) (2023-12-11T18:59:35Z) - MAP's not dead yet: Uncovering true language model modes by conditioning away degeneracy [26.464639238671054]
我々は,少数の低エントロピー雑音と集団テキスト分布を混合しても,データ分布モードが縮退する可能性があると主張している。
我々は、機械翻訳モデルと言語モデルの長さ条件モードが、非条件モードよりも本当に流動的でトピック的であることを実証的に検証した。
論文 参考訳(メタデータ) (2023-11-15T09:38:53Z) - Investigating Ensemble Methods for Model Robustness Improvement of Text
Classifiers [66.36045164286854]
既存のバイアス機能を分析し、すべてのケースに最適なモデルが存在しないことを実証します。
適切なバイアスモデルを選択することで、より洗練されたモデル設計でベースラインよりもロバスト性が得られる。
論文 参考訳(メタデータ) (2022-10-28T17:52:10Z) - CAMERO: Consistency Regularized Ensemble of Perturbed Language Models
with Weight Sharing [83.63107444454938]
本稿では,CAMEROと呼ばれる摂動モデルに基づく一貫性規則化アンサンブル学習手法を提案する。
具体的には、すべてのモデルで底層重みを共有し、異なるモデルの隠れ表現に異なる摂動を適用し、モデルの多様性を効果的に促進することができる。
大規模言語モデルを用いた実験により,CAMEROはアンサンブルモデルの一般化性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2022-04-13T19:54:51Z) - Universal and data-adaptive algorithms for model selection in linear
contextual bandits [52.47796554359261]
モデル選択の最も単純な非自明な例を考える: 単純な多重武装バンディット問題と線形文脈バンディット問題とを区別する。
データ適応的な方法で探索する新しいアルゴリズムを導入し、$mathcalO(dalpha T1- alpha)$という形式の保証を提供する。
我々のアプローチは、いくつかの仮定の下で、ネストされた線形文脈包帯のモデル選択に拡張する。
論文 参考訳(メタデータ) (2021-11-08T18:05:35Z) - Combining Diverse Feature Priors [90.74601233745047]
多様な機能事前セットでトレーニングされたモデルには、重複する障害モードが少なくなることを示す。
また、追加(ラベルなし)データでそのようなモデルを共同でトレーニングすることで、互いのミスを修正できることも示しています。
論文 参考訳(メタデータ) (2021-10-15T17:31:10Z) - A moment-matching metric for latent variable generative models [0.0]
グッドハートの法則の範囲では、計量が対象となるとき、それは良い計量になるのをやめる。
モーメントに依存するモデル比較や正規化のための新しい指標を提案する。
潜時変動モデルを評価する際に, 適応分布からサンプルを抽出することが一般的である。
論文 参考訳(メタデータ) (2021-10-04T17:51:08Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。