論文の概要: Spectral Souping: A Unified Framework for Online Preference Alignment
- arxiv url: http://arxiv.org/abs/2605.20408v1
- Date: Tue, 19 May 2026 19:04:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.336462
- Title: Spectral Souping: A Unified Framework for Online Preference Alignment
- Title(参考訳): Spectral Souping: オンライン選好アライメントのための統一フレームワーク
- Authors: Yinlam Chow, Guy Tennenholtz, Ted Yun, James Harrison, Arthur Gretton, Andre Barreto, Bo Dai,
- Abstract要約: Reinforcement Learning from Human Feedback (RLHF) は、大規模言語モデルと人間の嗜好の集約を効果的に整合させるが、個々のユーザの多様性と矛盾するニーズに対処できないことが多い。
我々は、効率的なオンライン嗜好アライメントのための統合フレームワークであるSpectral Soupingを紹介する。
オンライン嗜好アライメントベンチマーク実験により,本手法は既存の最先端手法よりも大幅な性能向上を実現していることが示された。
- 参考スコア(独自算出の注目度): 39.263620139543505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) effectively aligns Large Language Models (LLMs) with aggregate human preferences but often fails to address the diverse and conflicting needs of individual users. To overcome this issue, we introduce Spectral Souping, a unified framework for efficient, online preference alignment. Our contribution is the discovery of a universal spectral representation within LLMs, which is proven to be highly amenable to model merging. This theoretical insight enables a two-phase methodology: we first learn a basis of specialized policies offline, each focused on a distinct, fine-grained preference dimension. An online adaptation algorithm then efficiently ``soups'' these policies at inference time, either by merging their outputs or parameters, enabling rapid model adaptation without the need for costly online retraining w.r.t. tailored preference rewards. Experiments on online preference alignment benchmarks demonstrate that our method achieves significant performance improvements over existing state-of-the-art approaches, presenting a scalable and computationally efficient solution for dynamically adapting LLMs to individual user preferences.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) は、大規模言語モデル(LLM)と人間の嗜好の集約を効果的に整合させるが、個々のユーザの多様性と矛盾するニーズに対処することができないことが多い。
この問題を克服するために,効率的なオンライン嗜好アライメントのための統合フレームワークであるSpectral Soupingを紹介した。
我々の貢献は、LLM内の普遍的なスペクトル表現の発見であり、これはモデルマージに非常に適していることが証明されている。
この理論的な洞察は、2段階の方法論を可能にします。我々はまず、個別のポリシーの基礎をオフラインで学び、それぞれがはっきりとした選好次元に焦点を合わせます。
オンライン適応アルゴリズムは、これらのポリシーを推論時に効率的に 'soups' し、アウトプットまたはパラメータをマージし、コストのかかるオンラインリトレーニングを必要とせずに高速なモデル適応を可能にする。
オンライン・リテラル・アライメント・ベンチマーク実験により,既存手法に比べて性能が大幅に向上し,各ユーザの好みに合わせてLLMを動的に適応させる,スケーラブルで計算性の高いソリューションが提案されている。
関連論文リスト
- FedPDPO: Federated Personalized Direct Preference Optimization for Large Language Model Alignment [55.97027207627]
Fed PDPO(Federated Personalized Direct Preference Optimization)は、大規模言語モデル(LLM)の優先順位調整のためのパーソナライズされたフレームワークである。
パラメータ効率の良い微調整アーキテクチャを採用し、各クライアントはLow-Rank Adaptation (LoRA)アダプタで拡張された凍結したLLMバックボーンを維持し、通信効率のよいアグリゲーションを可能にする。
複数の嗜好データセットの実験では、最先端のパフォーマンスを示し、フェデレーション付きドメイン内およびクロスドメイン設定の平均精度が4.80%向上した。
論文 参考訳(メタデータ) (2026-03-20T08:24:49Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - SAIL: Self-Improving Efficient Online Alignment of Large Language Models [56.59644677997827]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための重要な方法である。
近年の文献では、オンラインRLHF法の設計に焦点が当てられているが、統一された概念的定式化はいまだに欠けている。
提案手法は,計算オーバーヘッドを最小限に抑えたオープンソースデータセットのアライメント性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-21T18:05:35Z) - Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Unified Preference Optimization: Language Model Alignment Beyond the Preference Frontier [0.5120567378386615]
大規模言語モデル(LLM)の整合化のための統一的アプローチを提案する。
好みと補助目的の単純な分解に基づいて、ユーザとデザイナーの好みを最適化するためにLLMをチューニングできる。
論文 参考訳(メタデータ) (2024-05-28T08:35:48Z) - Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback [70.32795295142648]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-01-21T10:46:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。