論文の概要: One Pass, Any Order: Position-Invariant Listwise Reranking for LLM-Based Recommendation
- arxiv url: http://arxiv.org/abs/2604.27599v1
- Date: Thu, 30 Apr 2026 08:49:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.004097
- Title: One Pass, Any Order: Position-Invariant Listwise Reranking for LLM-Based Recommendation
- Title(参考訳): One Pass, Any Order: position-invariant Listwise Re rank for LLM-based Recommendation
- Authors: Ethan Bito, Yongli Ren, Estrid He,
- Abstract要約: 大規模言語モデル(LLM)は、再ランク付けにますます使用されるが、それらのリストワイズ予測は、候補が提示される順序に依存する可能性がある。
これにより、セットベースのレコメンデーションとデコーダのみのLLMのシーケンスベースの計算のミスマッチが生成される。
InvariRankは、アーキテクチャレベルでこの依存に対処する置換不変なリストワイド・リグレード・フレームワークである。
- 参考スコア(独自算出の注目度): 2.5827686695037335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly used for recommendation reranking, but their listwise predictions can depend on the order in which candidates are presented. This creates a mismatch between the set-based nature of recommendation and the sequence-based computation of decoder-only LLMs, where permuting an otherwise identical candidate set can change item scores and final rankings. Such order sensitivity makes LLM-based rerankers difficult to rely on, since rankings may reflect prompt serialization rather than user preference. We propose InvariRank, a permutation-invariant listwise reranking framework that addresses this dependence at the architectural level. InvariRank blocks cross-candidate attention with a structured attention mask and negates position-induced scoring changes through shared positional framing under Rotary Positional Embeddings (RoPE). Combined with a listwise learning-to-rank objective, the model scores all candidates in a single forward pass, avoiding permutation-based invariance training objectives that require multiple permutations of a candidate set. Experiments on recommendation benchmarks show that InvariRank maintains competitive ranking effectiveness while producing stable rankings across candidate permutations. The results suggest that architectural invariance is a practical route to reliable and efficient LLM-based recommendation reranking. The source code is at https://github.com/ejbito/InvariRank.
- Abstract(参考訳): 大規模言語モデル(LLM)は、再ランク付けにますます使用されるが、それらのリストワイズ予測は、候補が提示される順序に依存する可能性がある。
これにより、セットベースのレコメンデーションとデコーダのみのLLMのシーケンスベースの計算のミスマッチが発生し、そうでなければ同一の候補セットを置換するとアイテムスコアと最終ランクが変更される。
このような順序に敏感なため、LCMベースのリランカは、ユーザの好みではなく、迅速なシリアライズを反映している可能性があるため、頼り難い。
InvariRankは、アーキテクチャレベルでこの依存に対処する置換不変なリストワイド・リグレード・フレームワークである。
InvariRankは、構造化された注意マスクで横断的注意を遮断し、Rotary Positional Embeddings (RoPE) の下での共有位置フレーミングを通して位置誘発のスコアリング変化を無効化する。
リストワイズ・ツー・ランクの目標と組み合わせて、モデルは単一の前方通過で全ての候補をスコア付けし、候補集合の複数の置換を必要とする置換に基づく不変性トレーニング目標を回避する。
レコメンデーションベンチマークの実験では、InvariRankは競合するランキングの有効性を維持しつつ、候補の順列にまたがる安定したランキングを作成している。
その結果、アーキテクチャの不変性は、信頼性と効率的なLCMベースのレコメンデーションの再評価への実践的な経路であることが示唆された。
ソースコードはhttps://github.com/ejbito/InvariRank.comにある。
関連論文リスト
- Rank-GRPO: Training LLM-based Conversational Recommender Systems with Reinforcement Learning [70.6126069527741]
ConvRec-R1は会話レコメンデーションシステムのエンドツーエンドトレーニングのための2段階のフレームワークである。
ステージ1では,Remap-Reflect-Adjustパイプラインを用いた行動閉鎖データセットを構築した。
ステージ2では,グループ相対政策最適化の原則的拡張である Rank-GRPO を提案する。
論文 参考訳(メタデータ) (2025-10-23T02:56:00Z) - Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。
この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。
そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T10:31:31Z) - Make Large Language Model a Better Ranker [20.532118635672763]
本稿では,Aligned Listwise Ranking Objectives (ALRO)を用いた大規模言語モデルフレームワークを提案する。
ALROは、LLMの能力とランキングタスクの微妙な要求とのギャップを埋めるように設計されている。
評価研究により,ALROは既存の埋め込み型レコメンデーション法とLLMベースのレコメンデーションベースラインの両方より優れていることがわかった。
論文 参考訳(メタデータ) (2024-03-28T07:22:16Z) - Found in the Middle: Permutation Self-Consistency Improves Listwise Ranking in Large Language Models [63.714662435555674]
大規模言語モデル(LLM)は、文脈の使い方に位置バイアスを示す。
我々は,ブラックボックスLLMのランキングリスト出力に対して,自己整合性(permutation self-consistency)を提案する。
LLaMA v2 (70B) では GPT-3.5 では 7-18% , LLaMA v2 (70B) では 8-16% である。
論文 参考訳(メタデータ) (2023-10-11T17:59:02Z) - Replace Scoring with Arrangement: A Contextual Set-to-Arrangement
Framework for Learning-to-Rank [40.81502990315285]
ラーニング・トゥ・ランク(Learning-to-rank)は、トップNレコメンデーションタスクの中核的なテクニックであり、理想的なランク付けはアイテムからアレンジへのマッピングである。
既存のソリューションのほとんどは確率的ランキング原理(PRP)のパラダイムに該当する。すなわち、まず候補セットで各項目をスコアし、次にソート操作を行い、トップランキングリストを生成する。
本稿では,個別のスコアリングやソートを必要とせずに,候補項目の順列を直接生成する新しいフレームワークであるSet-To-Arrangement Ranking (STARank)を提案する。
論文 参考訳(メタデータ) (2023-08-05T12:22:26Z) - PiRank: Learning To Rank via Differentiable Sorting [85.28916333414145]
ランク付けのための新しい分類可能なサロゲートであるPiRankを提案する。
ピランクは所望の指標をゼロ温度の限界で正確に回収する。
論文 参考訳(メタデータ) (2020-12-12T05:07:36Z) - SetRank: A Setwise Bayesian Approach for Collaborative Ranking from
Implicit Feedback [50.13745601531148]
提案手法は,提案システムにおける暗黙的フィードバックの特性に対応するために,協調的ランキング(SeetRank)のためのセッティングワイドベイズ的手法を提案する。
具体的には、SetRankは、新しい設定された選好比較の後方確率を最大化することを目的としている。
また、SetRankの理論解析により、余剰リスクの境界が$sqrtM/N$に比例できることを示す。
論文 参考訳(メタデータ) (2020-02-23T06:40:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。