論文の概要: Robust Preference Alignment via Directional Neighborhood Consensus
- arxiv url: http://arxiv.org/abs/2510.20498v2
- Date: Fri, 24 Oct 2025 02:19:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-27 11:27:44.466455
- Title: Robust Preference Alignment via Directional Neighborhood Consensus
- Title(参考訳): 方向的近傍合意によるロバストな選好アライメント
- Authors: Ruochen Mao, Yuling Shi, Xiaodong Gu, Jiaheng Wei,
- Abstract要約: 本稿では,指向性近傍のコンセンサスを利用したポストホックなトレーニングフリー手法であるRobust Preference Selection(RPS)を紹介する。
RPSは、関連する好みの地域からの複数の応答をサンプリングし、優れた候補プールを作成する。
本研究は, 嗜好整合モデルの信頼性を高めるための, 実用的, 理論的に基礎的なソリューションを提案する。
- 参考スコア(独自算出の注目度): 13.313830197011983
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning large language models with human preferences is critical for creating reliable and controllable AI systems. A human preference can be visualized as a high-dimensional vector where different directions represent trade-offs between desired attributes (e.g., helpfulness vs. verbosity). Yet, because the training data often reflects dominant, average preferences, LLMs tend to perform well on common requests but fall short in specific, individual needs. This mismatch creates a preference coverage gap. Existing methods often address this through costly retraining, which may not be generalized to the full spectrum of diverse preferences. This brittleness means that when a user's request reflects a nuanced preference deviating from the training data's central tendency, model performance can degrade unpredictably. To address this challenge, we introduce Robust Preference Selection (RPS), a post-hoc, training-free method by leveraging directional neighborhood consensus. Instead of forcing a model to generate a response from a single, highly specific preference, RPS samples multiple responses from a local neighborhood of related preferences to create a superior candidate pool. It then selects the response that best aligns with the user's original intent. We provide a theoretical framework showing our neighborhood generation strategy is provably superior to a strong baseline that also samples multiple candidates. Comprehensive experiments across three distinct alignment paradigms (DPA, DPO, and SFT) demonstrate that RPS consistently improves robustness against this baseline, achieving win rates of up to 69% on challenging preferences from under-represented regions of the space without any model retraining. Our work presents a practical, theoretically-grounded solution for enhancing the reliability of preference-aligned models.
- Abstract(参考訳): 人間の好みで大きな言語モデルを調整することは、信頼性と制御可能なAIシステムを作成する上で重要である。
人間の嗜好は、所望の属性(例えば、有用性対冗長性)間で異なる方向がトレードオフを表す高次元ベクトルとして可視化することができる。
しかし、トレーニングデータは支配的な平均的な嗜好を反映することが多いため、LLMは一般的な要求ではうまく機能するが、個々のニーズでは不足する傾向にある。
このミスマッチは、好みのカバレッジギャップを生み出します。
既存の手法はしばしば、コストのかかる再訓練を通じてこの問題に対処するが、これは様々な好みの完全なスペクトルに一般化されない。
この脆さは、トレーニングデータの中央傾向から逸脱した微妙な嗜好をユーザの要求が反映した場合、モデル性能が予測不能に低下することを意味する。
この課題に対処するために、指向性近傍のコンセンサスを活用して、ポストホックでトレーニング不要な手法であるRobust Preference Selection (RPS)を導入する。
モデルに1つの非常に特定の選好から応答を強制するのではなく、RSSは関連する選好の局所的な地区から複数の応答をサンプリングし、優れた候補プールを生成する。
次に、ユーザーの本来の意図に最もよく適合する応答を選択する。
提案手法は,提案手法が複数の候補を抽出する強力なベースラインよりも確実に優れていることを示す理論的枠組みを提供する。
3つの異なるアライメントパラダイム(DPA、DPO、SFT)にわたる総合的な実験により、RCSはこのベースラインに対するロバスト性を一貫して改善し、モデルの再トレーニングなしに、空間の非表現領域からの挑戦的な選好に対して最大69%の勝利率を達成した。
本研究は, 嗜好整合モデルの信頼性を高めるための, 実用的, 理論的に基礎的なソリューションを提案する。
関連論文リスト
- Beyond Single: A Data Selection Principle for LLM Alignment via Fine-Grained Preference Signals [46.58760908162995]
本研究では,大規模言語モデルのための新しい理論的基盤データ選択法を提案する。
直接選好最適化目標の損失境界を解析することにより,この戦略の最適性を証明する。
我々の戦略は、標準的な全体主義的嗜好とより強い託宣の両方に対して、10%以上の相対的な改善を達成する。
論文 参考訳(メタデータ) (2025-08-11T05:43:02Z) - More is Less: The Pitfalls of Multi-Model Synthetic Preference Data in DPO Safety Alignment [80.04449725137177]
直接選好最適化(DPO)は、人間のフィードバックによる強化学習の、シンプルで効果的な代替手段として登場した。
我々の研究は、DPOアライメントに関連する、目覚ましい、安全性に特有な現象を明らかにした。
選択されたペアと拒否されたペアに対してのみ自己生成されたレスポンスを使用することで、より強力なモデルからのレスポンスを含む構成を大幅に上回る。
論文 参考訳(メタデータ) (2025-04-03T00:36:40Z) - Rethinking Diverse Human Preference Learning through Principal Component Analysis [22.123631189289963]
二項比較から多種多様な人間の嗜好を抽出するために, DRM(Decomposed Reward Models)を導入する。
DRMは好みをベクトルとして表現し、主成分分析(PCA)を用いて分析する
DRMは、意味のある好みの次元(例えば、有用性、安全性、ユーモア)を効果的に抽出し、追加のトレーニングなしで新規ユーザーに適応する。
論文 参考訳(メタデータ) (2025-02-18T18:55:26Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Beyond Bradley-Terry Models: A General Preference Model for Language Model Alignment [51.14207112118503]
我々は、優先順位を効率的に捉えるために、応答を潜在空間に埋め込むアプローチである選好埋め込みを導入する。
また、人間からのフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般選好最適化(GPO)を提案する。
提案手法は,基礎モデルの微妙な人的価値との整合性を高めることができる。
論文 参考訳(メタデータ) (2024-10-03T04:22:55Z) - Aligning Crowd Feedback via Distributional Preference Reward Modeling [28.754532173765686]
本研究では,大規模言語モデルと多様な人間の嗜好を一致させるために,DPRM(Distributedal Preference Reward Model)を提案する。
実験の結果,DPRM は LLM と人口嗜好の整合性を著しく向上させ,より正確で偏りがなく,文脈的に適切な応答をもたらすことが示された。
論文 参考訳(メタデータ) (2024-02-15T07:29:43Z) - MaxMin-RLHF: Alignment with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。