論文の概要: PLOT: Enhancing Preference Learning via Optimal Transport
- arxiv url: http://arxiv.org/abs/2604.01837v1
- Date: Thu, 02 Apr 2026 09:51:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.660918
- Title: PLOT: Enhancing Preference Learning via Optimal Transport
- Title(参考訳): PLOT: 最適輸送による選好学習の強化
- Authors: Liang Zhu, Yuelin Bai, Xiankun Ren, Jiaxi Yang, Lei Zhang, Feiteng Fang, Hamid Alinejad-Rokny, Minghuan Tan, Min Yang,
- Abstract要約: PLOTは、最適輸送から導出されるトークンレベルの損失を通じて、微調整に基づくアライメントにおける優先度学習を強化する。
PLOTは、大規模言語モデルの本来の分布を保ちながら、モデルの出力を人間の好みに合わせる。
- 参考スコア(独自算出の注目度): 28.079554847535107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preference learning in Large Language Models (LLMs) has advanced significantly, yet existing methods remain limited by modest performance gains, high computational costs, hyperparameter sensitivity, and insufficient modeling of global token-level relationships. We introduce PLOT, which enhances Preference Learning in fine-tuning-based alignment through a token-level loss derived from Optimal Transport. By formulating preference learning as an Optimal Transport Problem, PLOT aligns model outputs with human preferences while preserving the original distribution of LLMs, ensuring stability and robustness. Furthermore, PLOT leverages token embeddings to capture semantic relationships, enabling globally informed optimization. Experiments across two preference categories - Human Values and Logic & Problem Solving - spanning seven subpreferences demonstrate that PLOT consistently improves alignment performance while maintaining fluency and coherence. These results substantiate optimal transport as a principled methodology for preference learning, establishing a theoretically grounded framework that provides new insights for preference learning of LLMs.
- Abstract(参考訳): LLM(Large Language Models)における優先学習は著しく進歩しているが、既存の手法は、控えめな性能向上、高い計算コスト、ハイパーパラメータの感度、グローバルトークンレベルの関係のモデリング不足によって制限されている。
PLOTは、最適輸送から導出されるトークンレベルの損失を通じて、微調整に基づくアライメントにおける優先度学習を強化する。
選好学習を最適輸送問題として定式化することにより、PLOTはモデルの出力を人間の選好と整合させ、LLMの本来の分布を保ち、安定性と堅牢性を確保する。
さらに、PLOTはトークンの埋め込みを利用して意味的関係をキャプチャし、グローバルにインフォメーションされた最適化を可能にする。
人間の価値と論理と問題解決という2つのカテゴリにわたる実験は、7つのサブリファレンスにまたがって、PLOTは、流感と一貫性を維持しながら、アライメントのパフォーマンスを一貫して改善することを示した。
これらの結果は、LLMの嗜好学習のための新たな洞察を提供する理論的な基盤となる枠組みを確立し、選好学習の原則的方法論として最適輸送を裏付けるものである。
関連論文リスト
- Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z) - Leveraging Robust Optimization for LLM Alignment under Distribution Shifts [51.74394601039711]
人間の値に整合した出力を生成するために、大規模言語モデルを操る上で、優先順位アライメント手法はますます重要になっている。
このようなシフトに拘わらず、好みのアライメントを改善する新しい分布対応最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-08T09:14:38Z) - RosePO: Aligning LLM-based Recommenders with Human Values [38.029251417802044]
我々は、パーソナライズされた選好最適化(RosePO)を円滑にするための一般的なフレームワークを提案する。
RosePOは、トレーニング後の段階において、カスタマイズされた人的価値との整合性が向上する。
実世界の3つのデータセットの評価は,本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-10-16T12:54:34Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities [0.35998666903987897]
本稿では,Large Language Models (LLM) の微調整について検討する。
従来の自然言語処理(NLP)モデルから、AIにおける彼らの重要な役割まで、LLMの歴史的進化を概説している。
本報告では, 微調整LDMのための構造化7段パイプラインについて紹介する。
論文 参考訳(メタデータ) (2024-08-23T14:48:02Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。