論文の概要: Response Time Enhances Alignment with Heterogeneous Preferences
- arxiv url: http://arxiv.org/abs/2605.06987v1
- Date: Thu, 07 May 2026 22:05:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.64597
- Title: Response Time Enhances Alignment with Heterogeneous Preferences
- Title(参考訳): 不均一な選好を伴うアライメントの応答時間
- Authors: Federico Echenique, Alireza Fallah, Baihe Huang, Michael I. Jordan,
- Abstract要約: 簡易な二次信号で選好データセットを増大させることで、住民の平均選好の識別性を回復できることを示す。
私たちの結果は、将来的なデータ収集パイプラインに約束と新たな機会をもたらします。
- 参考スコア(独自算出の注目度): 49.69696266152175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning large language models (LLMs) to human preferences typically relies on aggregating pooled feedback into a single reward model. However, this standard approach assumes that all labelers share the same underlying preferences, ignoring the fact that real-world labelers are highly heterogeneous and usually anonymous. Consequently, relying solely on binary choice data fundamentally distorts the learned policy, making the true population-average preference unidentifiable. To overcome this critical limitation, we demonstrate that augmenting preference datasets with a simple, secondary signal -- the user's response time -- can restore the identifiability of the population's average preference. By modeling each decision as a Drift-Diffusion Model (DDM), we introduce a novel, consistent estimator of heterogeneous preferences that successfully corrects the distortions of standard choice-only labels. We prove that our estimator asymptotically converges to the true average preference even in extreme cases where each anonymous labeler contributes only a single choice. Empirically, across both synthetic and real-world datasets, our method consistently outperforms standard baselines that otherwise fail and plateau at a bias floor. Because response times are essentially free to record and require zero user tracking or identification, our results bring promises and open up new opportunities for future data-collection pipelines to improve the social benefit without requiring user-level identifiers or repeated elicitations.
- Abstract(参考訳): 大きな言語モデル(LLM)を人間の好みに合わせることは、通常、プールされたフィードバックを単一の報酬モデルに集約することに依存する。
しかし、この標準的なアプローチは、全てのラベラーが同じ基本的好みを共有していると仮定し、現実世界のラベラーが非常に異質であり、通常匿名であるという事実を無視している。
したがって、二分選択データのみに依存することは、学習方針を根本的に歪め、真の人口平均的嗜好を識別不能にする。
この限界を克服するために、簡単な二次信号(ユーザの応答時間)で選好データセットを増大させることで、人口の平均選好の識別性を回復できることを実証する。
それぞれの決定をDDM(Drift-Diffusion Model)としてモデル化することにより、標準選択のみのラベルの歪みを補正する不均一な選好の新たな一貫した推定器を導入する。
匿名ラベルが1つの選択にのみ貢献する極端な場合においても、我々の推定値が漸近的に真の平均的嗜好に収束することを証明する。
経験的に、人工的なデータセットと実世界のデータセットの両方で、私たちの手法は、バイアスフロアで失敗する標準ベースラインを一貫して上回ります。
応答時間は基本的には記録が自由であり、ユーザ追跡や識別が不要であるため、ユーザレベルの識別子や繰り返しのエスカレーションを必要とせずに、将来のデータ収集パイプラインが社会的利益を改善するための新たな機会を約束し、開放します。
関連論文リスト
- MBD: A Model-Based Debiasing Framework Across User, Content, and Model Dimensions [50.00784452900918]
この課題に対処する一般モデルベースデバイアス(MBD)フレームワークを提案する。
任意のコホートに対するエンゲージメント分布の文脈平均と分散を明示的に推定する。
この統合により、フレームワークはバイアス付き生信号からバイアスなしの表現に変換することができる。
論文 参考訳(メタデータ) (2026-03-15T15:07:01Z) - Robust Preference Alignment via Directional Neighborhood Consensus [13.313830197011983]
本稿では,指向性近傍のコンセンサスを利用したポストホックなトレーニングフリー手法であるRobust Preference Selection(RPS)を紹介する。
RPSは、関連する好みの地域からの複数の応答をサンプリングし、優れた候補プールを作成する。
本研究は, 嗜好整合モデルの信頼性を高めるための, 実用的, 理論的に基礎的なソリューションを提案する。
論文 参考訳(メタデータ) (2025-10-23T12:39:20Z) - Direct Alignment with Heterogeneous Preferences [11.693372619696683]
ユーザタイプ全体の平均報酬を用いて、不均一な嗜好と単一ポリシーとの整合性が最善であることを示す。
最小限の情報が優先的な改善をもたらすのに対して、各ユーザタイプからの完全なフィードバックは、最適なポリシを一貫した学習につながります。
論文 参考訳(メタデータ) (2025-02-22T18:46:33Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
当社のアプローチは,DPOをかなりのマージンで継続的に向上させることを示す。
本手法は,嗜好データの有用性を最大化するだけでなく,未学習の問題も軽減し,データ拡張を超えてその広範な効果を実証する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Geometric-Averaged Preference Optimization for Soft Preference Labels [78.2746007085333]
LLMを人間の嗜好と整合させる多くのアルゴリズムは、人間の嗜好は二進的かつ決定論的であると仮定する。
本研究では,分散ソフトな選好ラベルを導入し,損失関数におけるLLM出力確率の重み付き幾何平均を用いて直接選好最適化(DPO)を改善する。
論文 参考訳(メタデータ) (2024-09-10T17:54:28Z) - PAL: Pluralistic Alignment Framework for Learning from Heterogeneous Preferences [6.398937923320069]
我々は、既存の事前学習戦略を補完する人間の嗜好をモデル化するフレームワークであるPALを提案する。
PALは,強いベースラインと比較して,競争報酬モデルの精度が向上することを示す。
論文 参考訳(メタデータ) (2024-06-12T17:54:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。