Fugu-MT 論文翻訳(概要): PLOT: Enhancing Preference Learning via Optimal Transport

論文の概要: PLOT: Enhancing Preference Learning via Optimal Transport

arxiv url: http://arxiv.org/abs/2604.01837v1
Date: Thu, 02 Apr 2026 09:51:56 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-03 14:21:10.660918
Title: PLOT: Enhancing Preference Learning via Optimal Transport
Title（参考訳）: PLOT: 最適輸送による選好学習の強化
Authors: Liang Zhu, Yuelin Bai, Xiankun Ren, Jiaxi Yang, Lei Zhang, Feiteng Fang, Hamid Alinejad-Rokny, Minghuan Tan, Min Yang,
Abstract要約: PLOTは、最適輸送から導出されるトークンレベルの損失を通じて、微調整に基づくアライメントにおける優先度学習を強化する。 PLOTは、大規模言語モデルの本来の分布を保ちながら、モデルの出力を人間の好みに合わせる。
参考スコア（独自算出の注目度）: 28.079554847535107
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Preference learning in Large Language Models (LLMs) has advanced significantly, yet existing methods remain limited by modest performance gains, high computational costs, hyperparameter sensitivity, and insufficient modeling of global token-level relationships. We introduce PLOT, which enhances Preference Learning in fine-tuning-based alignment through a token-level loss derived from Optimal Transport. By formulating preference learning as an Optimal Transport Problem, PLOT aligns model outputs with human preferences while preserving the original distribution of LLMs, ensuring stability and robustness. Furthermore, PLOT leverages token embeddings to capture semantic relationships, enabling globally informed optimization. Experiments across two preference categories - Human Values and Logic & Problem Solving - spanning seven subpreferences demonstrate that PLOT consistently improves alignment performance while maintaining fluency and coherence. These results substantiate optimal transport as a principled methodology for preference learning, establishing a theoretically grounded framework that provides new insights for preference learning of LLMs.
Abstract（参考訳）: LLM(Large Language Models)における優先学習は著しく進歩しているが、既存の手法は、控えめな性能向上、高い計算コスト、ハイパーパラメータの感度、グローバルトークンレベルの関係のモデリング不足によって制限されている。 PLOTは、最適輸送から導出されるトークンレベルの損失を通じて、微調整に基づくアライメントにおける優先度学習を強化する。選好学習を最適輸送問題として定式化することにより、PLOTはモデルの出力を人間の選好と整合させ、LLMの本来の分布を保ち、安定性と堅牢性を確保する。さらに、PLOTはトークンの埋め込みを利用して意味的関係をキャプチャし、グローバルにインフォメーションされた最適化を可能にする。人間の価値と論理と問題解決という2つのカテゴリにわたる実験は、7つのサブリファレンスにまたがって、PLOTは、流感と一貫性を維持しながら、アライメントのパフォーマンスを一貫して改善することを示した。これらの結果は、LLMの嗜好学習のための新たな洞察を提供する理論的な基盤となる枠組みを確立し、選好学習の原則的方法論として最適輸送を裏付けるものである。

論文の概要: PLOT: Enhancing Preference Learning via Optimal Transport

関連論文リスト