論文の概要: Diverse Preference Learning for Capabilities and Alignment
- arxiv url: http://arxiv.org/abs/2511.08594v1
- Date: Wed, 29 Oct 2025 17:29:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-16 06:38:31.064197
- Title: Diverse Preference Learning for Capabilities and Alignment
- Title(参考訳): 機能とアライメントのための異種選好学習
- Authors: Stewart Slocum, Asher Parker-Sartori, Dylan Hadfield-Menell,
- Abstract要約: 近年の研究では、RLHFやDPOといったアライメントアルゴリズムがLLM出力の多様性を著しく低下させることが明らかになっている。
我々は,KLペナルティにおけるエントロピー項とクロスエントロピー項を分離するソフト・プライス・ラーニングを提案する。
- 参考スコア(独自算出の注目度): 10.209224108636194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability of LLMs to represent diverse perspectives is critical as they increasingly impact society. However, recent studies reveal that alignment algorithms such as RLHF and DPO significantly reduce the diversity of LLM outputs. Not only do aligned LLMs generate text with repetitive structure and word choice, they also approach problems in more uniform ways, and their responses reflect a narrower range of societal perspectives. We attribute this problem to the KL divergence regularizer employed in preference learning algorithms. This causes the model to systematically overweight majority opinions and sacrifice diversity in its outputs. To address this, we propose Soft Preference Learning, which decouples the entropy and cross-entropy terms in the KL penalty - allowing for fine-grained control over LLM generation diversity. From a capabilities perspective, LLMs trained using Soft Preference Learning attain higher accuracy on difficult repeated sampling tasks and produce outputs with greater semantic and lexical diversity. From an alignment perspective, they are capable of representing a wider range of societal viewpoints and display improved logit calibration. Notably, Soft Preference Learning resembles, but is a Pareto improvement over, standard temperature scaling.
- Abstract(参考訳): 多様な視点を表現できるLLMの能力は、社会にますます影響を及ぼす。
しかし、最近の研究では、RLHFやDPOのようなアライメントアルゴリズムがLLM出力の多様性を著しく低下させることが示されている。
LLMは、反復的な構造と単語選択を持つテキストを生成するだけでなく、より均一な方法で問題にアプローチし、その応答はより狭い社会的視点を反映する。
この問題は、優先学習アルゴリズムで使用されるKL分散正規化器に起因している。
これにより、モデルが体系的に多数意見が過大評価され、アウトプットの多様性が犠牲になる。
そこで本研究では,KLペナルティにおけるエントロピー項とクロスエントロピー項を分離し,LLM生成の多様性をきめ細かな制御を可能にするソフト・プライス・ラーニングを提案する。
能力の観点から、LLMはソフト・プレフレクション・ラーニング(Soft Preference Learning)を用いて訓練され、困難な繰り返しサンプリングタスクの精度を高め、より意味的および語彙的多様性のあるアウトプットを生成する。
アライメントの観点からは、より広い社会的視点を表現でき、ロジット校正を改善した。
特に、Soft Preference Learningは似ているが、Paretoの改善であり、標準的な温度スケーリングである。
関連論文リスト
- Supervised Fine-Tuning or Contrastive Learning? Towards Better Multimodal LLM Reranking [56.46309219272326]
大型言語モデル(LLM)では、教師付き微調整(SFT)による分類は、関連する(非関連)ペアに対して'yes' (resp. ''no')トークンを予測する。
この分散は中心的な疑問を提起する:どの目的がLLMベースのリランクに本質的に適しているか、どのメカニズムが違いの根底にあるのか?
我々はCLとSFTの総合的な比較と分析を行い、ユニバーサルマルチモーダル検索(UMR)を実験場とした。
論文 参考訳(メタデータ) (2025-10-16T16:02:27Z) - VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models [7.350120815363245]
既存のロールアウト型強化学習手法では, 難易度が異なるサンプルに対して, LLMの学習能力を明示的に考慮することができない。
グループ報酬の分散に基づくトレーニングサンプルの難易度を動的に制御するカリキュラム強化学習フレームワークであるVCRLを提案する。
論文 参考訳(メタデータ) (2025-09-24T06:38:58Z) - Alignment Revisited: Are Large Language Models Consistent in Stated and Revealed Preferences? [5.542420010310746]
批判的だが、未調査の問題は、LLMが明記した嗜好と明らかにした嗜好との潜在的な相違である。
この研究は正式に定義され、この選好偏差を測定する方法を提案する。
我々の研究は、LDMをサービス、特に人間と直接対話するサービスに統合するために不可欠です。
論文 参考訳(メタデータ) (2025-05-31T23:38:48Z) - Latent Preference Coding: Aligning Large Language Models via Discrete Latent Codes [54.93980123979578]
我々は、暗黙の要因をモデル化する新しいフレームワークであるLatent Preference Coding (LPC)を紹介する。
LPCは様々なオフラインアライメントアルゴリズムとシームレスに統合し、基礎となる要因とデータからその重要性を自動的に推測する。
論文 参考訳(メタデータ) (2025-05-08T06:59:06Z) - LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities [21.42711537107199]
我々は,Large Language Models (LLMs) が意思決定シナリオにおいてサブ最適に機能する理由を考察する。
自己生成型CoT論理の強化学習(Reinforcement Learning, RL)による微調整によるこれらの欠点の緩和を提案する。
論文 参考訳(メタデータ) (2025-04-22T17:57:14Z) - CoMMIT: Coordinated Multimodal Instruction Tuning [90.1532838391285]
マルチモーダル大言語モデル(MLLM)は一般に、バックボーンLLMと非テキスト入力モードの特徴エンコーダ間の協調学習を含む。
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
本稿では,学習のバランスを定量的に測定できるマルチモーダルバランス係数を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - RLSF: Fine-tuning LLMs via Symbolic Feedback [11.407319705797242]
大規模言語モデル(LLM)はAIを変えてきたが、ドメイン固有の推論と論理的アライメントを必要とするタスクにしばしば苦労している。
従来の微調整手法は、私たちにとって利用可能な膨大な量の記号的ドメイン知識を活用できない。
本稿では,新しい微調整パラダイムであるシンボリックフィードバック(RLSF)による強化学習を紹介する。
論文 参考訳(メタデータ) (2024-05-26T18:49:59Z) - A Group Fairness Lens for Large Language Models [34.0579082699443]
大規模な言語モデルは、ソーシャルメディアの文脈に展開する際の偏見と不公平さを永久に防ぐことができる。
多様な社会集団を特徴付ける新しい階層型スキーマを用いて,グループフェアネスレンズからLLMバイアスを評価する。
我々は,グループフェアネスの観点からLLMのバイアスを軽減するために,GF-Thinkという新しいチェーン・オブ・シンク法を考案した。
論文 参考訳(メタデータ) (2023-12-24T13:25:15Z) - One-Shot Sensitivity-Aware Mixed Sparsity Pruning for Large Language Models [42.95555008229016]
そこで本研究では, ヘッセン感度を意識した混合疎水性プルーニング法を, 再トレーニングを必要とせず, 最低50%の疎水性まで適用する方法を提案する。
提案手法の利点は, 空間が極めて高い場合にさらに顕著である。
論文 参考訳(メタデータ) (2023-10-14T05:43:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。