論文の概要: Debiasing Online Preference Learning via Preference Feature Preservation
- arxiv url: http://arxiv.org/abs/2506.11098v1
- Date: Fri, 06 Jun 2025 13:19:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.456809
- Title: Debiasing Online Preference Learning via Preference Feature Preservation
- Title(参考訳): 選好特徴保存によるオンライン選好学習の嫌悪
- Authors: Dongyoung Kim, Jinsung Yoon, Jinwoo Shin, Jaehyung Kim,
- Abstract要約: 最近の嗜好学習フレームワークは、二対比較とスカラー報酬で人間の嗜好を簡単にする。
これにより、大規模言語モデルの反応は、主に好まれる特徴に偏り、オンラインの嗜好学習ステップのイテレーション中に悪化する可能性がある。
本研究では,人間の嗜好特徴の分布を維持するための嗜好特徴保存法を提案し,オンライン選好学習プロセスを通じてそのようなリッチな信号を利用する。
- 参考スコア(独自算出の注目度): 64.55924745257951
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent preference learning frameworks for large language models (LLMs) simplify human preferences with binary pairwise comparisons and scalar rewards. This simplification could make LLMs' responses biased to mostly preferred features, and would be exacerbated during the iterations of online preference learning steps. To address these challenges, we propose a novel framework coined PFP (Preference Feature Preservation). The key idea of PFP is maintaining the distribution of human preference features and utilizing such rich signals throughout the online preference learning process. Specifically, PFP first extract preference features from offline pairwise human preference data and trains a feature classifier. Then, using trained classifier and the distribution preserving optimization, PFP maps appropriate preference features for a new input instruction during online learning. Lastly, PFP trains LLM using the existing preference learning method, by incorporating the preference feature into system prompts and enabling LLM to explicitly handle various human preferences. Our experiments demonstrate that PFP successfully mitigates the bias in preference features during online learning, and hence achieves superior performance compared to previous preference learning methods on standard benchmarks to evaluate LLM alignment.
- Abstract(参考訳): 近年の大規模言語モデル(LLM)の嗜好学習フレームワークは,2対比較とスカラー報酬による人間の嗜好を単純化している。
この単純化により、LLMの反応は、主に好まれる特徴に偏り、オンラインの嗜好学習の繰り返しの間にさらに悪化する可能性がある。
これらの課題に対処するため、我々はPFP(Preference Feature Preservation)と呼ばれる新しいフレームワークを提案する。
PFPの鍵となる考え方は、人間の嗜好の特徴の分布を維持し、オンライン嗜好学習プロセスを通じてそのようなリッチな信号を活用することである。
具体的には、PFPは、まずオフライン対人選好データから選好特徴を抽出し、特徴分類器を訓練する。
そして、学習した分類器と分布保存最適化を用いて、PFPはオンライン学習中に新しい入力命令に対する適切な選好特徴をマップする。
最後に、PFPは、システムプロンプトに優先機能を組み込むことにより、既存の嗜好学習手法を用いてLLMを訓練し、LLMが様々な人間の嗜好を明示的に扱えるようにした。
実験の結果,PFPはオンライン学習における嗜好特性の偏りを緩和し,LCMアライメントを評価するための標準ベンチマークにおける従来の嗜好学習手法と比較して優れた性能が得られることがわかった。
関連論文リスト
- Intuitionistic Fuzzy Sets for Large Language Model Data Annotation: A Novel Approach to Side-by-Side Preference Labeling [0.0]
本稿では,多言語モデル(LLM)における人間の嗜好をモデル化・集約するための直観的ファジィ集合(IFS)に基づく新しい枠組みを提案する。
我々のアプローチは、選好の度合いだけでなく、メンバーシップ、非メンバーシップ、およびヒューイテーションの度合いを通じて、人間の判断に固有の不確実性や偏見も捉えている。
複数のデータセットに対する実験的検証は、我々のIFSベースのアプローチがアノテーションの一貫性を大幅に改善し、アノテータの疲労を低減し、高品質な嗜好データを生成することを示した。
論文 参考訳(メタデータ) (2025-05-30T04:20:00Z) - Multi-Type Preference Learning: Empowering Preference-Based Reinforcement Learning with Equal Preferences [12.775486996512434]
嗜好に基づく強化学習は、エージェント行動に関する人間教師の嗜好から直接学習する。
既存のPBRL法はしばしば明示的な選好から学習し、教師が平等な選好を選択する可能性を無視している。
そこで本稿では,PBRL手法であるMulti-Type Preference Learning (MTPL)を提案する。
論文 参考訳(メタデータ) (2024-09-11T13:43:49Z) - Pareto-Optimal Learning from Preferences with Hidden Context [17.590330740964266]
本稿では,多元的アライメントを実現するPOPLを提案する。
理論的および実証的な評価は,POPLが報酬関数とポリシーの学習において,基本的手法を超越していることを示している。
また,POPLは,グループフェアネスの特定の概念を最適化する手法の基盤としても機能することを示す。
論文 参考訳(メタデータ) (2024-06-21T18:57:38Z) - Spread Preference Annotation: Direct Preference Judgment for Efficient LLM Alignment [72.99676237703099]
大規模言語モデルと人間の嗜好の整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
命令応答対に対して協調的に好みを抽出する新しい軸を提案する。
命令と応答ペアを併用することで、大きな言語モデルのアライメントを大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-03-31T02:05:40Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。