Fugu-MT 論文翻訳(概要): Diagnosing LLM-based Rerankers in Cold-Start Recommender Systems: Coverage, Exposure and Practical Mitigations

論文の概要: Diagnosing LLM-based Rerankers in Cold-Start Recommender Systems: Coverage, Exposure and Practical Mitigations

arxiv url: http://arxiv.org/abs/2604.16318v1
Date: Mon, 09 Feb 2026 16:44:42 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-04 02:32:13.879383
Title: Diagnosing LLM-based Rerankers in Cold-Start Recommender Systems: Coverage, Exposure and Practical Mitigations
Title（参考訳）: コールドスタート・リコメンダーシステムにおけるLCMに基づくリランカーの診断:カバー, 露光, 実践的緩和
Authors: Ekaterina Lemdiasova, Nikita Zmanovskii,
Abstract要約: 大規模言語モデル(LLM)とクロスエンコーダのリランカーはレコメンダシステムの改善に注目されている。本稿では,Serendipity-2018データセットを用いた冷間開始映画レコメンデーションにおけるクロスエンコーダリランカーの系統的診断について述べる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) and cross-encoder rerankers have gained attention for improving recommender systems, particularly in cold-start scenarios where user interaction history is limited. However, practical deployment reveals significant performance gaps between LLM-based approaches and simple baselines. This paper presents a systematic diagnostic study of cross-encoder rerankers in cold-start movie recommendation using the Serendipity-2018 dataset. Through controlled experiments with 500 users across multiple random seeds, we identify three critical failure modes: (1) low retrieval coverage in candidate generation (recall@200 = 0.109 vs. 0.609 for baselines), (2) severe exposure bias with rerankers concentrating recommendations on 3 unique items versus 497 for random baseline, and (3) minimal score discrimination between relevant and irrelevant items (mean difference = 0.098, Cohen's d = 0.13). We demonstrate that popularity-based ranking substantially outperforms LLM reranking (HR@10: 0.268 vs. 0.008, p < 0.001), with the performance gap primarily attributable to retrieval stage limitations rather than reranker capacity. Based on these findings, we provide actionable recommendations including hybrid retrieval strategies, candidate pool size optimization, and score calibration techniques. All code, configurations, and experimental results are made available for reproducibility.
Abstract（参考訳）: 大規模言語モデル(LLM)とクロスエンコーダのリランカは、特にユーザインタラクション履歴が制限されたコールドスタートシナリオにおいて、レコメンダシステムの改善に注目を集めている。しかし、現実的なデプロイメントでは、LCMベースのアプローチと単純なベースラインの間に大きなパフォーマンスギャップがある。本稿では,Serendipity-2018データセットを用いた冷間開始映画レコメンデーションにおけるクロスエンコーダリランカーの系統的診断について述べる。 1) 候補生成における検索範囲の低さ (リコール@200 = 0.109 vs. 0.609 ベースライン) , (2) ランダムベースラインでは497 に対して3つのユニークな項目に対してレコメンデーションを集中させ, (3) 関連項目と関連項目のスコアの最小化 (平均差:0.098, Cohen's d = 0.13) である。評価に基づくランキングは,リランカ能力よりも検索段階の制限に起因して,LLMの再ランク(HR@10: 0.268 vs. 0.008, p < 0.001)を著しく上回っていることを示す。これらの知見に基づき、ハイブリッド検索戦略、候補プールサイズ最適化、スコアキャリブレーション手法など、実行可能なレコメンデーションを提供する。すべてのコード、構成、実験結果は再現性のために利用可能である。

関連論文リスト

LLM-Extracted Covariates for Clinical Causal Inference: Rethinking Integration Strategies [7.5675661390024125]
電子的健康記録からの因果推論は、測定されていないコンバウンディングによって根本的に制限される。我々は、潜伏した共同ファウンダーを因果推定パイプラインに効果的に統合する方法を示す。
論文参考訳（メタデータ） (2026-04-18T00:26:10Z)
Aligning Multimodal Sequential Recommendations via Robust Direct Preference Optimization with Sparse MoE [7.609008983716641]
我々は、一般的なネガティブ選択戦略とDPOトレーニングとの相互作用を比較するために、マルチモーダルシーケンシャルレコメンデーションの実験を行う。我々の中心的な発見は、決定論的ハードネガティブを動的トップK候補プールからのサンプリングに置き換えた単純な修正により、常にランク付け性能が向上することである。
論文参考訳（メタデータ） (2026-03-31T04:49:32Z)
Greedy Is a Strong Default: Agents as Iterative Optimizers [0.22843885788439797]
ランダムな提案生成装置をLCMエージェントに置き換え、評価診断を理由として情報付き候補を提案する。離散的,混合的,連続的な検索空間にまたがる4つのタスクを評価する。
論文参考訳（メタデータ） (2026-03-28T21:26:40Z)
Improving LLM-based Recommendation with Self-Hard Negatives from Intermediate Layers [80.55429742713623]
ILRecはLLMベースのレコメンデーションシステムのための新しい好みの微調整フレームワークである。負の信号に対してトークンレベルの報酬を割り当てるための軽量な協調フィルタリングモデルを提案する。 3つのデータセットの実験は、LLMベースのレコメンデータシステムの性能向上におけるILRecの有効性を示している。
論文参考訳（メタデータ） (2026-02-19T14:37:43Z)
RGAlign-Rec: Ranking-Guided Alignment for Latent Query Reasoning in Recommendation Systems [25.34524038198569]
本稿では,プロアクティブな意図予測のための閉ループアライメントフレームワーク RGAlign-Rec を提案する。また、マルチステージトレーニングパラダイムであるRGA(Ranning-Guided Alignment)も導入する。我々のフレームワークはGAUCで0.12%向上し、エラー率を3.52%削減し、Recall@3で0.56%改善した。
論文参考訳（メタデータ） (2026-02-13T14:38:02Z)
Rethinking LLM Evaluation: Can We Evaluate LLMs with 200x Less Data? [82.09573568241724]
EssenceBenchは反復遺伝的アルゴリズム(GA)を利用した粗粒度フレームワーク提案手法は, 再構成誤差が低く, 効率が著しく向上した, 優れた圧縮結果が得られる。 HellaSwagベンチマーク(10Kサンプル)では,25倍少ないサンプルを用いて,全モデルが5%以内の順位を保ち,わずか200倍少ないサンプルを用いて,95%未満のランキング保持シフトを達成している。
論文参考訳（メタデータ） (2025-10-12T05:38:10Z)
Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文参考訳（メタデータ） (2023-06-30T11:32:25Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)
Let's Sample Step by Step: Adaptive-Consistency for Efficient Reasoning and Coding with LLMs [60.58434523646137]
大規模言語モデル(LLM)からの出力の正確性を改善するための一般的なアプローチは、自己整合性である。コスト効率のよいモデルに依存しない手法であるAdaptive-Consistencyを導入し,各質問のサンプル数を動的に調整する。実験の結果,Adaptive-Consistencyはサンプル予算を最大7.9倍に削減し,平均精度は0.1%以下であった。
論文参考訳（メタデータ） (2023-05-19T17:49:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。