論文の概要: RLPO: Residual Listwise Preference Optimization for Long-Context Review Ranking
- arxiv url: http://arxiv.org/abs/2601.07449v1
- Date: Mon, 12 Jan 2026 11:45:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.365637
- Title: RLPO: Residual Listwise Preference Optimization for Long-Context Review Ranking
- Title(参考訳): RLPO:Long-Context Review Rankingのための残留リスト参照最適化
- Authors: Hao Jiang, Zhi Yang, Annan Wang, Yichi Zhang, Weisi Lin,
- Abstract要約: ポイントワイドスコアは効率的だが、しばしばリストレベルの相互作用を考慮に入れない。
リストワイズアプローチはグローバルなコンテキストを活用することができるが、計算コストが高く、候補リストが大きくなるにつれて不安定になる。
本稿では,リストワイズ表現レベルの残差補正としてランク付けするResidual Listwise Preference Optimization (RLPO)を提案する。
- 参考スコア(独自算出の注目度): 50.709454968853954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Review ranking is pivotal in e-commerce for prioritizing diagnostic and authentic feedback from the deluge of user-generated content. While large language models have improved semantic assessment, existing ranking paradigms face a persistent trade-off in long-context settings. Pointwise scoring is efficient but often fails to account for list-level interactions, leading to miscalibrated top-$k$ rankings. Listwise approaches can leverage global context, yet they are computationally expensive and become unstable as candidate lists grow. To address this, we propose Residual Listwise Preference Optimization (RLPO), which formulates ranking as listwise representation-level residual correction over a strong pointwise LLM scorer. RLPO first produces calibrated pointwise scores and item representations, then applies a lightweight encoder over the representations to predict listwise score residuals, avoiding full token-level listwise processing. We also introduce a large-scale benchmark for long-context review ranking with human verification. Experiments show RLPO improves NDCG@k over strong pointwise and listwise baselines and remains robust as list length increases.
- Abstract(参考訳): レビューランキングは、ユーザー生成コンテンツの希薄化から診断と真のフィードバックを優先する電子商取引において重要なものである。
大きな言語モデルはセマンティックアセスメントを改善したが、既存のランク付けパラダイムは、長いコンテキスト設定で永続的なトレードオフに直面している。
ポイントワイドのスコアリングは効率的だが、しばしばリストレベルのインタラクションを考慮できない。
リストワイズアプローチはグローバルなコンテキストを活用することができるが、計算コストが高く、候補リストが大きくなるにつれて不安定になる。
そこで本稿では,LLMスコアラに対するリストワイド表現レベルの残差補正を定式化したResidual Listwise Preference Optimization (RLPO)を提案する。
RLPOはまずキャリブレーションされたポイントワイズスコアとアイテム表現を生成し、次に軽量エンコーダを適用してリストワイズスコア残差を予測し、トークンレベルのリストワイズ処理を完全に回避する。
また,人間の検証による長期コンテキストレビューランキングの大規模ベンチマークも導入した。
実験の結果、RLPOはNDCG@kを強い点とリストの基準線で改善し、リスト長が増加するにつれて頑健であることがわかった。
関連論文リスト
- K-order Ranking Preference Optimization for Large Language Models [43.249451587412544]
トップKランキングの一貫性を最適化することは、現実世界のアプリケーションにもっと適している、と私たちは主張する。
そこで我々は,DPOのPlanet-Luceモデルを拡張して,上位Kランクに適合させることにより,K順序ランキング最適化(KPO)を提案する。
論文 参考訳(メタデータ) (2025-05-31T07:46:42Z) - AcuRank: Uncertainty-Aware Adaptive Computation for Listwise Reranking [35.685682379377134]
大規模言語モデル (LLMs) によるリストのランク付けは、検索ベースのアプリケーションにおいて上位のランク付けされた結果を強化する。
AcuRank は文書関連性に対する不確実性推定に基づいて動的に計算量と目標を調節する適応型再ランクフレームワークである。
TREC-DLとBEIRのベンチマークの結果から,提案手法は精度・効率のトレードオフを一貫して達成し,固定計算ベースラインよりも計算能力に優れることがわかった。
論文 参考訳(メタデータ) (2025-05-24T05:15:49Z) - In-context Ranking Preference Optimization [65.5489745857577]
In-context Ranking Preference Optimization (IRPO) フレームワークを提案する。
IRPOは標準のDPO手法よりも高い性能を示し、LLMと直接文脈内ランキング設定の整合性を強調した。
論文 参考訳(メタデータ) (2025-04-21T23:06:12Z) - Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。
この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。
そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T10:31:31Z) - FIRST: Faster Improved Listwise Reranking with Single Token Decoding [56.727761901751194]
まず、第1生成識別子の出力ロジットを活用して、候補のランク付け順序を直接取得する新しいリストワイズLLMリグレードアプローチであるFIRSTを紹介する。
実験結果から、BEIRベンチマークの利得により、FIRSTはロバストなランキング性能を維持しつつ、推論を50%高速化することが示された。
以上の結果から,LLMリランカーはクロスエンコーダに比べて強い蒸留信号を提供できることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T21:27:50Z) - LiPO: Listwise Preference Optimization through Learning-to-Rank [62.02782819559389]
ポリシーは、プロンプトによってランク付けされた妥当な応答のリストからより効果的に学習することができる。
LiPO-$lambda$ は DPO 変種と SLiC をいくつかの選好アライメントタスクにおいて明確なマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-02-02T20:08:10Z) - Found in the Middle: Permutation Self-Consistency Improves Listwise Ranking in Large Language Models [63.714662435555674]
大規模言語モデル(LLM)は、文脈の使い方に位置バイアスを示す。
我々は,ブラックボックスLLMのランキングリスト出力に対して,自己整合性(permutation self-consistency)を提案する。
LLaMA v2 (70B) では GPT-3.5 では 7-18% , LLaMA v2 (70B) では 8-16% である。
論文 参考訳(メタデータ) (2023-10-11T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。