論文の概要: Latent Preference Coding: Aligning Large Language Models via Discrete Latent Codes
- arxiv url: http://arxiv.org/abs/2505.04993v1
- Date: Thu, 08 May 2025 06:59:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.779274
- Title: Latent Preference Coding: Aligning Large Language Models via Discrete Latent Codes
- Title(参考訳): Latent Preference Coding:離散遅延コードによる大規模言語モデルのアラインメント
- Authors: Zhuocheng Gong, Jian Guan, Wei Wu, Huishuai Zhang, Dongyan Zhao,
- Abstract要約: 我々は、暗黙の要因をモデル化する新しいフレームワークであるLatent Preference Coding (LPC)を紹介する。
LPCは様々なオフラインアライメントアルゴリズムとシームレスに統合し、基礎となる要因とデータからその重要性を自動的に推測する。
- 参考スコア(独自算出の注目度): 54.93980123979578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have achieved remarkable success, yet aligning their generations with human preferences remains a critical challenge. Existing approaches to preference modeling often rely on an explicit or implicit reward function, overlooking the intricate and multifaceted nature of human preferences that may encompass conflicting factors across diverse tasks and populations. To address this limitation, we introduce Latent Preference Coding (LPC), a novel framework that models the implicit factors as well as their combinations behind holistic preferences using discrete latent codes. LPC seamlessly integrates with various offline alignment algorithms, automatically inferring the underlying factors and their importance from data without relying on pre-defined reward functions and hand-crafted combination weights. Extensive experiments on multiple benchmarks demonstrate that LPC consistently improves upon three alignment algorithms (DPO, SimPO, and IPO) using three base models (Mistral-7B, Llama3-8B, and Llama3-8B-Instruct). Furthermore, deeper analysis reveals that the learned latent codes effectively capture the differences in the distribution of human preferences and significantly enhance the robustness of alignment against noise in data. By providing a unified representation for the multifarious preference factors, LPC paves the way towards developing more robust and versatile alignment techniques for the responsible deployment of powerful LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は目覚ましい成功を収めているが、世代を人間の好みに合わせることは依然として重要な課題である。
既存の選好モデルへのアプローチは、しばしば明示的あるいは暗黙的な報奨関数に依存しており、様々なタスクや集団にまたがる矛盾する要因を包含する、人間の選好の複雑で多面的な性質を見下ろしている。
この制限に対処するために、暗黙の要因をモデル化する新しいフレームワークであるLatent Preference Coding (LPC)を導入する。
LPCは、様々なオフラインアライメントアルゴリズムとシームレスに統合し、事前に定義された報酬関数や手作りの組み合わせ重みに頼ることなく、基礎となる要因とデータの重要性を自動的に推測する。
複数のベンチマークでの大規模な実験により、LPCは3つのベースモデル(Mistral-7B、Llama3-8B、Llama3-8B-Instruct)を使用して、3つのアライメントアルゴリズム(DPO、SimPO、IPO)を一貫して改善することが示された。
さらに、より深い分析により、学習された潜伏符号は人間の好みの分布の違いを効果的に捉え、データのノイズに対するアライメントの堅牢性を大幅に向上させることが明らかとなった。
マルチファストな選好因子の統一表現を提供することにより、LPCは強力なLLMの配置に責任を負うために、より堅牢で多目的なアライメント技術を開発するための道を開く。
関連論文リスト
- HAIR: Hardness-Aware Inverse Reinforcement Learning with Introspective Reasoning for LLM Alignment [0.0351124620232225]
HAIR(Hardness-Aware Inverse Reinforcement Learning with Introspective Reasoning)は、メンバーシップ推論攻撃におけるシャドーモデルにインスパイアされた新しいアライメントアプローチである。
提案手法は,(1)イントロスペクティブ推論機能を利用する構造的プロンプトを用いた7つの有害カテゴリを対象とした,バランスの取れた安全連鎖データセットの構築である。
4つの無害度と4つの有用性ベンチマークにわたる総合的な実験は、HAIRが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-03-23T16:40:29Z) - UC-MOA: Utility-Conditioned Multi-Objective Alignment for Distributional Pareto-Optimality [15.53963063493065]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の価値を整合させる基盤となっている。
既存のアプローチは、人間の好みの多次元、分布的なニュアンスを捉えるのに苦労している。
本稿では,これらの制約を克服する新しいフレームワークであるUtility-Conditioned Multi-Objective Alignment (UC-MOA)を紹介する。
論文 参考訳(メタデータ) (2025-03-10T09:52:42Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - SPO: Multi-Dimensional Preference Sequential Alignment With Implicit Reward Modeling [34.32744849352087]
本研究では,人間の好みに合わせて,大規模言語モデルを逐次微調整する手法を提案する。
理論的には閉形式最適SPOポリシーと損失関数を導出する。
異なる大きさのLLMと複数の評価データセットの実証結果から、SPOはLLMを人間の嗜好の多次元にわたって整列させることに成功した。
論文 参考訳(メタデータ) (2024-05-21T12:47:17Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization [76.09576643028362]
複数のアライメント目的に対してMODPO(Multi-Objective Direct Preference Optimization)を提案する。
MODPOは、言語モデリングを直接報酬モデルに折り畳み、暗黙の集団報酬モデルとして言語モデルを訓練する。
理論的には MORLHF と同じ最適解が得られるが、実質的にはより安定で効率的である。
論文 参考訳(メタデータ) (2023-10-05T17:35:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。