論文の概要: The Sign Estimator: LLM Alignment in the Face of Choice Heterogeneity
- arxiv url: http://arxiv.org/abs/2510.23965v2
- Date: Wed, 29 Oct 2025 15:51:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 13:34:45.459244
- Title: The Sign Estimator: LLM Alignment in the Face of Choice Heterogeneity
- Title(参考訳): 符号推定器:LLMアライメントと選択不均一性
- Authors: Ali Aouad, Aymane El Gadarri, Vivek F. Farias,
- Abstract要約: 従来のアライメント手法は、人間の嗜好の不均一性に対して脆弱である。
そこで我々は,手話推定器という,シンプルで,確実に一貫性があり,効率的な推定器を提供する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 4.957619545367733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional LLM alignment methods are vulnerable to heterogeneity in human preferences. Fitting a na\"ive probabilistic model to pairwise comparison data (say over prompt-completion pairs) yields an inconsistent estimate of the population-average utility -a canonical measure of social welfare. We propose a new method, dubbed the sign estimator, that provides a simple, provably consistent, and efficient estimator by replacing cross-entropy with binary classification loss in the aggregation step. This simple modification recovers consistent ordinal alignment under mild assumptions and achieves the first polynomial finite-sample error bounds in this setting. In realistic simulations of LLM alignment using digital twins, the sign estimator substantially reduces preference distortion over a panel of simulated personas, cutting (angular) estimation error by nearly 35% and decreasing disagreement with true population preferences from 12% to 8% compared to standard RLHF. Our method also compares favorably to panel data heuristics that explicitly model user heterogeneity and require tracking individual-level preference data-all while maintaining the implementation simplicity of existing LLM alignment pipelines.
- Abstract(参考訳): 従来のLSMアライメント法は、ヒトの嗜好の不均一性に対して脆弱である。
na\ な確率モデルをペア比較データ(例えば、プロンプト-コンプリートペア)に適合させることで、社会福祉の標準的な指標である人口平均ユーティリティーの矛盾した見積もりが得られる。
本稿では,クロスエントロピーをアグリゲーションステップにおける二項分類損失に置き換えることにより,シンプルで確実かつ効率的な推定器を提供する,手話推定器と呼ばれる新しい手法を提案する。
この単純な修正は、穏やかな仮定の下で一貫した順序的アライメントを回復し、この設定で最初の多項式有限サンプル誤差境界を達成する。
デジタルツインを用いたLCMアライメントの現実的なシミュレーションでは、シミュレートされたペルソナのパネル上での嗜好歪みを著しく低減し、(角)推定誤差を35%近く削減し、真のRLHFに比べて真の人口選好との相違を12%から8%に低減する。
また,従来のLCMアライメントパイプラインの実装の単純さを維持しつつ,ユーザ不均一性を明示的にモデル化し,個人レベルの嗜好データすべてを追跡するようなパネルデータヒューリスティックスと比較した。
関連論文リスト
- Robust low-rank estimation with multiple binary responses using pairwise AUC loss [0.0]
複数のバイナリ応答は、多くの現代のデータ分析問題に現れる。
低ランクモデルはタスク間の遅延依存をエンコードする自然な方法を提供する。
既存のバイナリデータの方法は概ね可能性ベースであり、ポイントワイズ分類に重点を置いている。
論文 参考訳(メタデータ) (2026-01-13T15:00:10Z) - Direct Preference Optimization with Unobserved Preference Heterogeneity: The Necessity of Ternary Preferences [14.686788596611246]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の価値の整合の中心となっている。
最近の選択肢であるDPO(Direct Preference Optimization)は、好みを直接最適化することでパイプラインを単純化している。
生成モデルアライメントにおける多様なユーザに対する公平性とパーソナライズのための理論的かつアルゴリズム的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-17T15:00:40Z) - Leveraging Robust Optimization for LLM Alignment under Distribution Shifts [51.74394601039711]
人間の値に整合した出力を生成するために、大規模言語モデルを操る上で、優先順位アライメント手法はますます重要になっている。
このようなシフトに拘わらず、好みのアライメントを改善する新しい分布対応最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-08T09:14:38Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Shuffled Linear Regression via Spectral Matching [6.24954299842136]
シャッフル線形回帰は線形変換を通じて潜在特徴を推定しようとする。
この問題は、従来の最小二乗法(LS)とLast Absolute Shrinkage and Selection Operator(LASSO)アプローチを拡張している。
置換を効率的に解決するスペクトルマッチング法を提案する。
論文 参考訳(メタデータ) (2024-09-30T16:26:40Z) - Geometric-Averaged Preference Optimization for Soft Preference Labels [78.2746007085333]
LLMを人間の嗜好と整合させる多くのアルゴリズムは、人間の嗜好は二進的かつ決定論的であると仮定する。
本研究では,分散ソフトな選好ラベルを導入し,損失関数におけるLLM出力確率の重み付き幾何平均を用いて直接選好最適化(DPO)を改善する。
論文 参考訳(メタデータ) (2024-09-10T17:54:28Z) - Direct Preference Optimization With Unobserved Preference Heterogeneity: The Necessity of Ternary Preferences [14.686788596611246]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の価値の整合の中心となっている。
最近の選択肢であるDPO(Direct Preference Optimization)は、好みを直接最適化することでパイプラインを単純化している。
生成モデルアライメントにおける多様なユーザに対する公平性とパーソナライズのための理論的かつアルゴリズム的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-23T21:25:20Z) - Error Reduction from Stacked Regressions [12.657895453939298]
積み重ね回帰は、予測精度を高めるために異なる回帰推定器の線形結合を形成するアンサンブル手法である。
本稿では,非負性制約を受ける経験的リスクの正規化バージョンを最小化することにより,これらの重みを類似的に学習する。
適応的縮小効果により、結果として生じる累積推定量は、最も優れた単一推定値よりも人口リスクが厳しく小さい。
論文 参考訳(メタデータ) (2023-09-18T15:42:12Z) - Optimal Cross-Validation for Sparse Linear Regression [5.156484100374059]
線形回帰器のスパーシリティとロバスト性を選択するためにk-foldクロスバリデーションを用いる。
クロスバリデーションはスパース回帰の計算コストを大幅に増大させる。
混合整数最適化問題を50~80%削減することで、この状況を改善する。
論文 参考訳(メタデータ) (2023-06-26T17:02:45Z) - Rethinking Collaborative Metric Learning: Toward an Efficient
Alternative without Negative Sampling [156.7248383178991]
コラボレーティブ・メトリック・ラーニング(CML)パラダイムはレコメンデーション・システム(RS)分野に広く関心を集めている。
負のサンプリングが一般化誤差のバイアス付き推定に繋がることがわかった。
そこで我々は,SFCML (textitSampling-Free Collaborative Metric Learning) という名前のCMLに対して,負のサンプリングを伴わない効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-06-23T08:50:22Z) - Near-optimal inference in adaptive linear regression [60.08422051718195]
最小二乗法のような単純な方法でさえ、データが適応的に収集されるときの非正規な振る舞いを示すことができる。
我々は,これらの分布異常を少なくとも2乗推定で補正するオンラインデバイアス推定器のファミリーを提案する。
我々は,マルチアームバンディット,自己回帰時系列推定,探索による能動的学習などの応用を通して,我々の理論の有用性を実証する。
論文 参考訳(メタデータ) (2021-07-05T21:05:11Z) - Sparse Feature Selection Makes Batch Reinforcement Learning More Sample
Efficient [62.24615324523435]
本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。
候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
論文 参考訳(メタデータ) (2020-11-08T16:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。