論文の概要: A Reproducibility Analysis of PO4ISR: Diagnosing and Mitigating Semantic Drift in LLM-Based Session Recommendation
- arxiv url: http://arxiv.org/abs/2605.18780v1
- Date: Wed, 29 Apr 2026 06:13:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.941888
- Title: A Reproducibility Analysis of PO4ISR: Diagnosing and Mitigating Semantic Drift in LLM-Based Session Recommendation
- Title(参考訳): PO4ISRの再現性分析 : LLMセッション勧告における意味的ドリフトの診断と緩和
- Authors: Aditya Tiwari, Konduri Naga Lakshmi Rekha, Rajesh Kumar Mundotiya,
- Abstract要約: PO4ISRのような推論ベースの大規模言語モデル(LLM)は、セッションベースの推奨で新しいベンチマークを設定した。
我々はPO4ISRの厳密な研究を行い、その一般化限界を評価する。
標準的な推論のプロンプトは、長いセッションで厳しいコンテキストドリフトに悩まされる。
我々は、反射的プロンプトと一貫したランク検出を統合した堅牢な実装であるPO4ISR++を紹介する。
- 参考スコア(独自算出の注目度): 0.015293427903448021
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning-based Large Language Models (LLMs) like PO4ISR have set new benchmarks in session-based recommendation. However, the reproducibility of their reasoning capabilities across diverse semantic domains remains unexplored. In this work, we conduct a rigorous reproducibility study of PO4ISR to assess its generalization limits. Our analysis reveals a critical failure mode: standard reasoning prompts suffer from severe contextual drift in long sessions, leading to performance degradation on semantically complex datasets like Games and Bundle. To quantify and resolve this stability gap, we introduce PO4ISR++, a robustness-enhanced implementation that integrates reflexive prompting and consistent rank detection. Unlike the original static prompting strategy, our approach dynamically adapts to cross-domain cues. We benchmark both the original implementation and our robust variant on ML-1M, Games, and Bundle. Our results confirm that while the original model struggles in new domains, our reproducible extension restores performance, yielding a stabilized gain of up to 54% on Games and 96% on Bundle. We release open-source artifacts, including the reproduced baseline and our enhanced framework, to facilitate reliable future research in LLM-based recommendation.
- Abstract(参考訳): PO4ISRのような推論ベースの大規模言語モデル(LLM)は、セッションベースの推奨で新しいベンチマークを設定した。
しかし、それらの推論能力の様々な意味領域における再現性は未解明のままである。
本研究では,PO4ISRの厳密な再現性評価を行い,その一般化限界を評価する。
標準的な推論は、長いセッションで厳しいコンテキストドリフトに悩まされ、ゲームやバンドルのようなセマンティックに複雑なデータセットのパフォーマンスが低下する。
この安定性ギャップを定量化し,解決するために,反射的プロンプトと一貫したランク検出を統合した堅牢性強化実装であるPO4ISR++を導入する。
従来の静的なプロンプト戦略とは異なり、我々のアプローチはクロスドメインなキューに動的に適応する。
ML-1M、Games、Bundleのオリジナルの実装とロバストなバリエーションをベンチマークします。
これらの結果から,再現可能な拡張はパフォーマンスを回復し,ゲームでは最大54%,バンドルでは96%の安定化が得られた。
再生ベースラインと拡張フレームワークを含むオープンソースアーティファクトをリリースし、LCMベースのレコメンデーションにおける信頼性の高い将来の研究を促進する。
関連論文リスト
- Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - Optimizing RAG Rerankers with LLM Feedback via Reinforcement Learning [47.963236269307735]
リランカはRetrieval-Augmented Generationの検索結果の精錬において重要な役割を果たす。
現在のリグレードモデルは通常、ダウンストリーム生成プロセスから切り離された静的な人間アノテートされた関連ラベルに独立して最適化される。
本稿では,LLMの生成品質と直接整合する強化学習フレームワークであるReRanking Preference Optimization(RRPO)を紹介する。
論文 参考訳(メタデータ) (2026-04-02T14:19:47Z) - Steering Vision-Language Pre-trained Models for Incremental Face Presentation Attack Detection [62.89126207012712]
顔提示攻撃検出(PAD)は、スプーフィング戦術やドメインと戦うために漸進的な学習を要求する。
過去のデータ保持を禁止し、リハーサルフリーラーニング(RF-IL)を必要とするプライバシー規制
論文 参考訳(メタデータ) (2025-12-22T04:30:11Z) - VULPO: Context-Aware Vulnerability Detection via On-Policy LLM Optimization [2.6678231901651723]
本稿では、コンテキスト認識型脆弱性検出のためのLLM強化学習フレームワークであるVulnerability-Adaptive Policy Optimization (VULPO)を紹介する。
トレーニングと評価を支援するために,我々はまず,高品質な関数レベルのサンプルを軽量な方法で拡張し,リポジトリレベルのコンテキスト情報を抽出するContextVulを構築した。
異なる脆弱性ケースの非対称的な難しさに対処し、報酬ハックを緩和するために、VULPOはラベルレベルとサンプルレベルの難易度適応型報酬スケーリングを取り入れている。
論文 参考訳(メタデータ) (2025-11-14T21:57:48Z) - Evaluating from Benign to Dynamic Adversarial: A Squid Game for Large Language Models [57.33350664910483]
資源制約と非対称な情報設定を備えた動的・対角的評価環境であるSquid Gameを紹介する。
我々は,Squid Game 上で50以上の LLM を評価し,動的対向シナリオにおける一般 LLM の行動評価研究を最大規模で行った。
論文 参考訳(メタデータ) (2025-11-12T06:06:29Z) - Scaf-GRPO: Scaffolded Group Relative Policy Optimization for Enhancing LLM Reasoning [49.290631188365786]
Scaf-GRPOは、モデルの独立した学習が停滞した時に介入するトレーニングフレームワークである。
これはQwen2.5-Math-7Bモデルのパス@1スコアを、バニラGRPOベースラインよりも44.3%向上させる。
この結果から、我々のフレームワークは、それまで到達範囲を超えていた問題を解決するモデルの能力を解き放つ、堅牢で効果的な方法論を提供することを示した。
論文 参考訳(メタデータ) (2025-10-22T17:41:30Z) - When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs [55.20230501807337]
本報告では, 統一実験フレームワーク内での迅速なロバスト性向上のための5つの手法の体系的評価を行う。
Llama、Qwen、Gemmaファミリーの8つのモデルに対して、Natural Instructionsデータセットから52のタスクをベンチマークする。
論文 参考訳(メタデータ) (2025-08-15T10:32:50Z) - REX-RAG: Reasoning Exploration with Policy Correction in Retrieval-Augmented Generation [35.0649927279081]
強化学習(RL)は、大規模言語モデル(LLM)が複雑な推論タスクを実行できるための強力なパラダイムとして浮上している。
本稿では、厳格な政策学習を維持しつつ、代替推論経路を探求するフレームワークであるREX-RAGを提案する。
その結果,REX-RAG は Qwen2.5-3B では5.1%, Qwen2.5-7B では3.6% であることがわかった。
論文 参考訳(メタデータ) (2025-08-11T16:25:25Z) - A NotSo Simple Way to Beat Simple Bench [0.0]
本稿では,大規模言語モデル(LLM)における推論能力向上のための新しい枠組みを提案する。
モデル精度とロバスト性を改善するために,グローバルな整合性チェックと組み合わせたマルチステッププロンプト戦略を提案する。
クロードは論理的整合性を維持するのに優れ, GPT-4oは探索的創造性を示すが, 曖昧なプロンプトに苦しむ。
論文 参考訳(メタデータ) (2024-12-12T16:04:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。