論文の概要: Beyond One-Size-Fits-All: Adaptive Test-Time Augmentation for Sequential Recommendation
- arxiv url: http://arxiv.org/abs/2604.16121v1
- Date: Fri, 17 Apr 2026 14:56:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.965332
- Title: Beyond One-Size-Fits-All: Adaptive Test-Time Augmentation for Sequential Recommendation
- Title(参考訳): 1サイズ以上:逐次勧告のための適応的テスト時間拡張
- Authors: Xibo Li, Liang Zhang,
- Abstract要約: テスト時間の増大は、シーケンシャルなレコメンデーションにおいてデータの分散を緩和するための有望なアプローチとなっている。
既存のTTAメソッドは通常、一様でユーザに依存しない拡張戦略に依存している。
AdaTTAはシーケンスごとにシーケンス固有の拡張演算子を選択することを学習する。
- 参考スコア(独自算出の注目度): 3.873910497341511
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-time augmentation (TTA) has become a promising approach for mitigating data sparsity in sequential recommendation by improving inference accuracy without requiring costly model retraining. However, existing TTA methods typically rely on uniform, user-agnostic augmentation strategies. We show that this "one-size-fits-all" design is inherently suboptimal, as it neglects substantial behavioral heterogeneity across users, and empirically demonstrate that the optimal augmentation operators vary significantly across user sequences with different characteristics for the first time. To address this limitation, we propose AdaTTA, a plug-and-play reinforcement learning-based adaptive inference framework that learns to select sequence-specific augmentation operators on a per-sequence basis. We formulate augmentation selection as a Markov Decision Process and introduce an Actor-Critic policy network with hybrid state representations and a joint macro-rank reward design to dynamically determine the optimal operator for each input user sequence. Extensive experiments on four real-world datasets and two recommendation backbones demonstrate that AdaTTA consistently outperforms the best fixed-strategy baselines, achieving up to 26.31% relative improvement on the Home dataset while incurring only moderate computational overhead
- Abstract(参考訳): TTA(Test-time augmentation)は、コストのかかるモデル再トレーニングを必要とせず、推論精度を向上させることによって、シーケンシャルなレコメンデーションにおけるデータの分散を緩和するための有望なアプローチとなっている。
しかし、既存のTTAメソッドは通常、一様でユーザに依存しない拡張戦略に依存している。
この「ワンサイズフィットオール」設計は、ユーザ間での行動の不均一性を無視するため、本質的にはサブ最適であり、最適な拡張演算子は、初めて異なる特性を持つユーザシーケンス間で大きく異なることを実証的に示す。
この制限に対処するために,AdaTTAを提案する。AdaTTAは,シーケンスごとにシーケンス固有の拡張演算子を選択することを学習する,プラグアンドプレイの強化学習に基づく適応推論フレームワークである。
我々はマルコフ決定プロセスとして拡張選択を定式化し、ハイブリッド状態表現と連立マクロランク報酬設計を備えたアクタ・クリティカルポリシーネットワークを導入し、各入力ユーザシーケンスに対して最適な演算子を動的に決定する。
4つの実世界のデータセットと2つの推奨バックボーンに関する大規模な実験は、AdaTTAが常に最高の固定戦略ベースラインを上回り、Homeデータセットに対する26.31%の相対的な改善を達成し、中程度の計算オーバーヘッドしか生じないことを示した。
関連論文リスト
- FedUTR: Federated Recommendation with Augmented Universal Textual Representation for Sparse Interaction Scenarios [58.33672784127872]
フェデレーションレコメンデーション(FR)は、デバイス上のプライバシ保護パラダイムとして登場した。
本稿では,対話行動の補完として項目文表現を取り入れたFedUTRという新しい手法を提案する。
提案手法は,SOTAベースラインと比較して,全データセットの最大59%の改善を達成し,優れた性能を実現する。
論文 参考訳(メタデータ) (2026-01-29T08:55:19Z) - GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。
次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。
GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文 参考訳(メタデータ) (2026-01-08T18:59:24Z) - AsarRec: Adaptive Sequential Augmentation for Robust Self-supervised Sequential Recommendation [18.47848960425837]
シークエンシャルレコメンダシステムは、ユーザの動的嗜好をモデル化し、アイテム遷移パターンをキャプチャする強力な機能を示している。
ヒューマンエラー、不確実性、行動の曖昧さは、劣化したレコメンデーションのパフォーマンスにつながる。
AsarRecは、ユーザシーケンスを確率的遷移シーケンスにエンコードすることで、変換行列を生成することを学習する。
論文 参考訳(メタデータ) (2025-12-16T03:29:11Z) - Listwise Preference Diffusion Optimization for User Behavior Trajectories Prediction [41.53271688465831]
ユーザ行動軌跡予測(UBTP)を,長期ユーザの嗜好を明示的にモデル化するタスク設定として定式化する。
項目列全体に対して構造化された嗜好を直接最適化する拡散に基づくトレーニングフレームワークであるリスワイズ・ディフュージョン・最適化(LPDO)を導入する。
多段階の予測品質を厳密に評価するために、正確な軌跡合意を計測するタスク特異的な逐次マッチング(SeqMatch)を提案し、確率的忠実度を評価するパープレキシティ(PPL)を採用する。
論文 参考訳(メタデータ) (2025-11-01T12:16:24Z) - Adaptive Preference Optimization with Uncertainty-aware Utility Anchor [33.74005997646761]
オフライン優先最適化手法は、大規模言語モデル(LLM)のアライメントに効率的である。
提案手法は, 嗜好データアノテーションから生じる不確実性を推定するアンカー機能を導入し, オフラインの選好最適化手法の一般的なフレームワークを提案する。
本手法は,データ不備のシナリオにおいてもトレーニングが可能であり,データ利用効率を大幅に向上させる。
論文 参考訳(メタデータ) (2025-09-03T10:20:08Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Direct Preference Optimization With Unobserved Preference Heterogeneity: The Necessity of Ternary Preferences [14.686788596611246]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の価値の整合の中心となっている。
最近の選択肢であるDPO(Direct Preference Optimization)は、好みを直接最適化することでパイプラインを単純化している。
生成モデルアライメントにおける多様なユーザに対する公平性とパーソナライズのための理論的かつアルゴリズム的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-23T21:25:20Z) - Sequence Adaptation via Reinforcement Learning in Recommender Systems [8.909115457491522]
そこで我々は,SARモデルを提案する。SARモデルは,ユーザとイテムの相互作用のシーケンス長をパーソナライズされた方法で調整する。
さらに,逐次レコメンデーションの精度を批評家ネットワークの予測累積報酬と整合させるために,共同損失関数を最適化する。
実世界の4つのデータセットに対する実験的な評価は,提案モデルがいくつかのベースラインアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-07-31T13:56:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。