論文の概要: DiffPO: Diffusion-styled Preference Optimization for Efficient Inference-Time Alignment of Large Language Models
- arxiv url: http://arxiv.org/abs/2503.04240v2
- Date: Sun, 09 Mar 2025 14:36:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 11:38:45.073709
- Title: DiffPO: Diffusion-styled Preference Optimization for Efficient Inference-Time Alignment of Large Language Models
- Title(参考訳): DiffPO:大言語モデルの効率的な推論時間アライメントのための拡散型推論最適化
- Authors: Ruizhe Chen, Wenhao Chai, Zhifei Yang, Xiaotian Zhang, Joey Tianyi Zhou, Tony Quek, Soujanya Poria, Zuozhu Liu,
- Abstract要約: 拡散型優先度最適化(Diffusion-styled Preference Optimization: モデル)は、LLMを人間と整合させるための効率的でポリシーに依存しないソリューションを提供する。
modelavoidはトークンレベルの生成に関連する時間遅延をモデル化する。
AlpacaEval 2, MT-bench, HH-RLHFの実験により, 種々の環境におけるアライメント性能が良好であることが示された。
- 参考スコア(独自算出の注目度): 50.32663816994459
- License:
- Abstract: Inference-time alignment provides an efficient alternative for aligning LLMs with humans. However, these approaches still face challenges, such as limited scalability due to policy-specific value functions and latency during the inference phase. In this paper, we propose a novel approach, Diffusion-styled Preference Optimization (\model), which provides an efficient and policy-agnostic solution for aligning LLMs with humans. By directly performing alignment at sentence level, \model~avoids the time latency associated with token-level generation. Designed as a plug-and-play module, \model~can be seamlessly integrated with various base models to enhance their alignment. Extensive experiments on AlpacaEval 2, MT-bench, and HH-RLHF demonstrate that \model~achieves superior alignment performance across various settings, achieving a favorable trade-off between alignment quality and inference-time latency. Furthermore, \model~demonstrates model-agnostic scalability, significantly improving the performance of large models such as Llama-3-70B.
- Abstract(参考訳): 推論時アライメントは、LLMと人間を協調する効率的な代替手段を提供する。
しかし、これらのアプローチは、ポリシー固有の値関数や推論フェーズのレイテンシによるスケーラビリティの制限など、依然として課題に直面している。
本稿では, LLMを人間と整合させるための, 効率的かつポリシーに依存しないソリューションを提供する, 拡散型優先度最適化 (Diffusion-styled Preference Optimization) を提案する。
文レベルでアライメントを直接実行することにより、 \model~avoid はトークンレベルの生成に関連する時間遅延を発生させる。
プラグアンドプレイモジュールとして設計された \model~は、様々なベースモデルとシームレスに統合してアライメントを強化することができる。
AlpacaEval 2, MT-bench, HH-RLHFの大規模な実験により, モデル〜アライメント性能が様々な設定で優れており, アライメント品質と推論時間レイテンシのトレードオフが良好であることが示された。
さらに、モデル~デモストレーションはモデルに依存しないスケーラビリティを実現し、Llama-3-70Bのような大型モデルの性能を大幅に向上させる。
関連論文リスト
- Diffusion Model as a Noise-Aware Latent Reward Model for Step-Level Preference Optimization [46.888425016169144]
拡散モデルの優先度最適化は、画像を人間の好みに合わせることを目的としている。
従来の方法では、ビジョンランゲージモデル(VLM)を画素レベルの報酬モデルとして活用し、人間の好みを近似する。
本研究では,拡散モデルが潜伏空間におけるステップレベルの報酬モデリングに本質的に適していることを示す。
本稿では,遅延空間において,ステップレベルの優先度最適化を直接的に行う手法であるLatent Preference Optimization (LPO)を紹介する。
論文 参考訳(メタデータ) (2025-02-03T04:51:28Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Inference time LLM alignment in single and multidomain preference spectrum [16.849200702288307]
優先次元の符号化表現を学習する推論時間モデルアライメント手法を提案する。
これらの表現は、モデル編集のように、アライメントモデルからベースモデルのサブトラクションによって計算される。
好みの次元は様々なレベルにまたがることができるが、ここでは3つの専門領域にわたる3つの段階的な応答レベルに焦点を当てる。
論文 参考訳(メタデータ) (2024-10-24T23:31:39Z) - Margin Matching Preference Optimization: Enhanced Model Alignment with Granular Feedback [64.67540769692074]
人間のフィードバックからの強化学習など、アライメント技術で微調整された大規模言語モデル(LLM)は、これまでで最も有能なAIシステムの開発に役立っている。
マージンマッチング選好最適化(MMPO)と呼ばれる手法を導入し、相対的な品質マージンを最適化し、LLMポリシーと報酬モデルを改善する。
人間とAIの両方のフィードバックデータによる実験によると、MMPOはMT-benchやRewardBenchといった一般的なベンチマークにおいて、ベースラインメソッドよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-10-04T04:56:11Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - A Practical Second-order Latent Factor Model via Distributed Particle
Swarm Optimization [5.199454801210509]
Hessian-free (HF) 最適化は、LFモデルの目的関数の2次情報を利用するための効率的な方法である。
本研究では,実用的なSLF(PSLF)モデルを提案する。
実HiDSデータセットの実験は、PSLFモデルがデータ表現能力の最先端モデルに対して競争上の優位性を持っていることを示している。
論文 参考訳(メタデータ) (2022-08-12T05:49:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。