Fugu-MT 論文翻訳(概要): LiPO: Listwise Preference Optimization through Learning-to-Rank

論文の概要: LiPO: Listwise Preference Optimization through Learning-to-Rank

arxiv url: http://arxiv.org/abs/2402.01878v2
Date: Wed, 22 May 2024 18:51:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-25 07:19:21.809780
Title: LiPO: Listwise Preference Optimization through Learning-to-Rank
Title（参考訳）: LiPO:Learning-to-Rankによるリスショニング最適化
Authors: Tianqi Liu, Zhen Qin, Junru Wu, Jiaming Shen, Misha Khalman, Rishabh Joshi, Yao Zhao, Mohammad Saleh, Simon Baumgartner, Jialu Liu, Peter J. Liu, Xuanhui Wang,
Abstract要約: ポリシーは、プロンプトによってランク付けされた妥当な応答のリストからより効果的に学習することができる。 LiPO-$lambda$ は DPO 変種と SLiC をいくつかの選好アライメントタスクにおいて明確なマージンで上回ることを示す。
参考スコア（独自算出の注目度）: 62.02782819559389
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Aligning language models (LMs) with curated human feedback is critical to control their behaviors in real-world applications. Several recent policy optimization methods, such as DPO and SLiC, serve as promising alternatives to the traditional Reinforcement Learning from Human Feedback (RLHF) approach. In practice, human feedback often comes in a format of a ranked list over multiple responses to amortize the cost of reading prompt. Multiple responses can also be ranked by reward models or AI feedback. There lacks such a thorough study on directly fitting upon a list of responses. In this work, we formulate the LM alignment as a \textit{listwise} ranking problem and describe the LiPO framework, where the policy can potentially learn more effectively from a ranked list of plausible responses given the prompt. This view draws an explicit connection to Learning-to-Rank (LTR), where most existing preference optimization work can be mapped to existing ranking objectives. Following this connection, we provide an examination of ranking objectives that are not well studied for LM alignment with DPO and SLiC as special cases when list size is two. In particular, we highlight a specific method, LiPO-$\lambda$, which leverages a state-of-the-art \textit{listwise} ranking objective and weights each preference pair in a more advanced manner. We show that LiPO-$\lambda$ can outperform DPO variants and SLiC by a clear margin on several preference alignment tasks with both curated and real rankwise preference data.
Abstract（参考訳）: 人間のフィードバックをキュレートした言語モデル(LM)の調整は、現実世界のアプリケーションでそれらの振る舞いを制御するために重要である。 DPOやSLiCといった最近の政策最適化手法は、従来のRLHF(Reinforcement Learning from Human Feedback)アプローチに代わる有望な代替手段として機能している。実際には、人間のフィードバックは、複数のレスポンスにまたがってランク付けされたリストの形式で表示され、読み取りプロンプトのコストを償却する。複数のレスポンスは報酬モデルやAIフィードバックによってランク付けすることもできる。応答のリストに直接適合する、このような徹底的な研究は欠如している。本稿では、LMアライメントを「textit{listwise}」ランキング問題として定式化し、LiPOフレームワークを記述する。この見解はLTR(Learning-to-Rank)と明確に結びついており、既存の選好最適化作業のほとんどを既存のランク付け目標にマッピングすることができる。本報告では,リストサイズが2の特別事例として,DPOとSLiCとのLMアライメントについて十分に研究されていないランク付け対象について検討する。特に、現在最先端の \textit{listwise} ランキングの目的を活用し、それぞれの選好ペアをより高度な方法で重み付けする、特定のメソッドである LiPO-$\lambda$ を強調します。 LiPO-$\lambda$ は DPO と SLiC の変種を、キュレートされたデータと実ランクの選好データの両方で、いくつかの選好アライメントタスクにおいて明確なマージンで上回ることを示す。

関連論文リスト

Rank-GRPO: Training LLM-based Conversational Recommender Systems with Reinforcement Learning [70.6126069527741]
ConvRec-R1は会話レコメンデーションシステムのエンドツーエンドトレーニングのための2段階のフレームワークである。ステージ1では,Remap-Reflect-Adjustパイプラインを用いた行動閉鎖データセットを構築した。ステージ2では,グループ相対政策最適化の原則的拡張である Rank-GRPO を提案する。
論文参考訳（メタデータ） (2025-10-23T02:56:00Z)
Prompt-Based LLMs for Position Bias-Aware Reranking in Personalized Recommendations [0.0]
大規模言語モデル(LLM)は、プロンプトベースのレコメンデーションに採用されている。 LLMは、限られたコンテキストウィンドウサイズ、非効率なポイントワイドおよびペアワイドプロンプト、リストワイドランキングの扱いの難しさといった制限に直面している。本稿では,従来のレコメンデーションモデルとLLMを組み合わせたハイブリッドフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-08T05:01:44Z)
In-context Ranking Preference Optimization [48.36442791241395]
In-context Ranking Preference Optimization (IRPO) フレームワークを提案する。 IRPOは標準のDPO手法よりも高い性能を示し、LLMと直接文脈内ランキング設定の整合性を強調した。
論文参考訳（メタデータ） (2025-04-21T23:06:12Z)
Active Learning for Direct Preference Optimization [59.84525302418018]
直接選好最適化(DPO)は、人間のフィードバックからの強化学習の一種である。オンラインのフィードバック収集や,すでに収集したフィードバックの最も情報性の高いサブセットをオフラインで選択できる,DPOのためのアクティブラーニングフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-03T00:36:31Z)
Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback [40.01227095901647]
大規模言語モデル(LLM)は、優れたパフォーマンスを示すが、リトレーニングなしに素早く人間の好みに適応する柔軟性に欠ける。本稿では,LLM出力と推論時の人間の嗜好を一致させるフレームワークであるテスト時間優先最適化(TPO)を紹介する。本研究は,TPOをテスト時間優先最適化の実用的で軽量な代替手段として確立し,ハエのアライメントを実現している。
論文参考訳（メタデータ） (2025-01-22T14:15:46Z)
Online Preference Alignment for Language Models via Count-based Exploration [46.46627519343809]
Reinforcement Learning from Human Feedback (RLHF)は、人間の好みに合わせて微調整された大規模言語モデル(LLM)に大きな可能性を示している。既存のメソッドは、データカバレッジに制限のある、固定データセットからの好みのアライメントを実行する。オンラインRLHFは、プロンプト-レスポンスペアを反復的に収集することで、LLMが初期データセットのサポートの外部を探索できるようにするのが望ましい。
論文参考訳（メタデータ） (2025-01-22T09:12:09Z)
Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文参考訳（メタデータ） (2024-11-07T10:31:31Z)
Permutative Preference Alignment from Listwise Ranking of Human Judgments [40.23480751285947]
我々はNDCGを異なる代理損失で近似することで、エンドツーエンドのアライメントアルゴリズムを開発する。我々は,NDCGに基づく手法により,B-T法よりも効率よくランキング精度を向上させることを示す。
論文参考訳（メタデータ） (2024-10-06T03:49:28Z)
Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文参考訳（メタデータ） (2024-09-26T12:37:26Z)
Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
大きな言語モデル(LLM)を整列させる一般的な手法は、人間の好みを取得することに依存する。本稿では,命令応答対に対して協調的に好みを抽出する新たな軸を提案する。また,LLMのアライメントを大幅に向上させることができることを示す。
論文参考訳（メタデータ） (2024-03-31T02:05:40Z)
Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文参考訳（メタデータ） (2024-03-28T10:02:10Z)
Make Large Language Model a Better Ranker [20.532118635672763]
本稿では,Aligned Listwise Ranking Objectives (ALRO)を用いた大規模言語モデルフレームワークを提案する。 ALROは、LLMの能力とランキングタスクの微妙な要求とのギャップを埋めるように設計されている。評価研究により,ALROは既存の埋め込み型レコメンデーション法とLLMベースのレコメンデーションベースラインの両方より優れていることがわかった。
論文参考訳（メタデータ） (2024-03-28T07:22:16Z)
Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。 RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文参考訳（メタデータ） (2024-02-12T22:47:57Z)
Tuna: Instruction Tuning using Feedback from Large Language Models [74.04950416204551]
本稿では,新しいテキスト確率的ランキングとテキストコンテクスチュアルランキングを用いた命令調整型大規模言語モデルの微調整を提案する。確率的ランク付けにより、教師のLCMから高品質で低品質なレスポンスの相対的なランク付けを継承することができる。一方、文脈的ランキングを学習することで、より強いLLMの文脈的理解能力を用いて、モデルが独自の応答分布を洗練できる。
論文参考訳（メタデータ） (2023-10-20T09:55:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。