論文の概要: Can Recommender Systems Teach Themselves? A Recursive Self-Improving Framework with Fidelity Control
- arxiv url: http://arxiv.org/abs/2602.15659v1
- Date: Tue, 17 Feb 2026 15:31:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.112348
- Title: Can Recommender Systems Teach Themselves? A Recursive Self-Improving Framework with Fidelity Control
- Title(参考訳): Recommender Systemsはテーマを教えることができるか? 忠実度制御による再帰的自己改善フレームワーク
- Authors: Luankang Zhang, Hao Wang, Zhongzhou Liu, Mingjia Yin, Yonghao Huang, Jiaqi Li, Wei Guo, Yong Liu, Huifeng Guo, Defu Lian, Enhong Chen,
- Abstract要約: 本稿では,外部データや教師モデルに依存することなく,モデルが自身のパフォーマンスをブートストラップするパラダイムを提案する。
我々の理論的分析は、RSIRがデータ駆動型暗黙正則化器として機能し、最適化景観を円滑にしていることを示している。
より小さなモデルであっても利点があり、弱いモデルはより強力なモデルに対して効果的なトレーニングカリキュラムを生成することができることを示す。
- 参考スコア(独自算出の注目度): 82.30868101940068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The scarcity of high-quality training data presents a fundamental bottleneck to scaling machine learning models. This challenge is particularly acute in recommendation systems, where extreme sparsity in user interactions leads to rugged optimization landscapes and poor generalization. We propose the Recursive Self-Improving Recommendation (RSIR) framework, a paradigm in which a model bootstraps its own performance without reliance on external data or teacher models. RSIR operates in a closed loop: the current model generates plausible user interaction sequences, a fidelity-based quality control mechanism filters them for consistency with user's approximate preference manifold, and a successor model is augmented on the enriched dataset. Our theoretical analysis shows that RSIR acts as a data-driven implicit regularizer, smoothing the optimization landscape and guiding models toward more robust solutions. Empirically, RSIR yields consistent, cumulative gains across multiple benchmarks and architectures. Notably, even smaller models benefit, and weak models can generate effective training curricula for stronger ones. These results demonstrate that recursive self-improvement is a general, model-agnostic approach to overcoming data sparsity, suggesting a scalable path forward for recommender systems and beyond. Our anonymized code is available at https://anonymous.4open.science/r/RSIR-7C5B .
- Abstract(参考訳): 高品質なトレーニングデータの不足は、機械学習モデルをスケーリングする上で、根本的なボトルネックとなる。
この課題は、ユーザインタラクションの極端に疎結合が、厳密な最適化の展望と一般化の欠如につながるレコメンデーションシステムにおいて特に深刻である。
本稿では、モデルが外部データや教師モデルに頼らずに自身のパフォーマンスをブートストラップするパラダイムであるRecursive Self-Improving Recommendation(RSIR)フレームワークを提案する。
RSIRはクローズドループで動作し、現在のモデルはプラウシブルなユーザインタラクションシーケンスを生成し、忠実度に基づく品質制御機構は、ユーザの近似的嗜好多様体との整合性のためにそれらをフィルタリングし、後継モデルが強化されたデータセット上に拡張される。
我々の理論的分析は、RSIRがデータ駆動型暗黙正則化器として機能し、最適化のランドスケープを円滑にし、より堅牢なソリューションに向けてモデルを導くことを示している。
経験的に、RSIRは複数のベンチマークやアーキテクチャで一貫した累積ゲインを得る。
特に、より小さなモデルでさえ利点があり、弱いモデルはより強力なモデルのための効果的なトレーニングカリキュラムを生成することができる。
これらの結果から,再帰的自己改善はデータの分散性を克服するための一般的なモデルに依存しないアプローチであり,推薦システムなどへのスケーラブルな道のりを示唆している。
私たちの匿名コードはhttps://anonymous.4open.science/r/RSIR-7C5Bで利用可能です。
関連論文リスト
- One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning [54.580646706013965]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。
これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-30T06:08:27Z) - Reward Models Can Improve Themselves: Reward-Guided Adversarial Failure Mode Discovery for Robust Reward Modeling [27.11560841914813]
本稿では,自己改善型報酬モデルであるREFORMを紹介する。
我々は、広く使われている2つの嗜好データセットであるArthhropic Helpful Harmless (HH)とPKU Beavertailsについて、REFORMを評価した。
論文 参考訳(メタデータ) (2025-07-08T21:56:33Z) - Aligning Frozen LLMs by Reinforcement Learning: An Iterative Reweight-then-Optimize Approach [65.6966065843227]
Iterative Reweight-then-IROは、凍結ベースモデルのRLスタイルアライメントを実行するフレームワークである。
テスト時には、値関数を使用して、検索ベースの最適化プロセスを介してベースモデル生成をガイドする。
特に、ユーザは、OpenAIの強化微調整(RFT)と同様、自身のデータセットにモデルをアライメントするためにIROを適用することができる。
論文 参考訳(メタデータ) (2025-06-21T21:49:02Z) - Fake it till You Make it: Reward Modeling as Discriminative Prediction [49.31309674007382]
GAN-RMは、手動の嗜好アノテーションと明示的な品質次元工学を排除した効率的な報酬モデリングフレームワークである。
提案手法は,少数の対象サンプルを識別し,報酬モデルを訓練する。
実験では、GAN-RMが複数の主要なアプリケーションにまたがって有効であることを実証した。
論文 参考訳(メタデータ) (2025-06-16T17:59:40Z) - Pre-training for Recommendation Unlearning [14.514770044236375]
UnlearnRecはモデルに依存しない事前学習パラダイムであり、効率的な未学習操作のためのシステムを準備している。
本手法は,再学習手法に比べて10倍以上の高速化を実現した。
論文 参考訳(メタデータ) (2025-05-28T17:57:11Z) - iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use [56.31110409360567]
大規模な言語モデルを外部ツールで拡張することは、その機能を強化するための有望なアプローチである。
その結果, 合成データの増加に伴い, トレーニングは著しく低下することがわかった。
我々は,この制限を緩和するために,反復的に強化された微調整戦略を提案する。
論文 参考訳(メタデータ) (2025-01-15T04:52:34Z) - Dataset Regeneration for Sequential Recommendation [69.93516846106701]
DR4SRと呼ばれるモデルに依存しないデータセット再生フレームワークを用いて、理想的なトレーニングデータセットを開発するためのデータ中心のパラダイムを提案する。
データ中心のパラダイムの有効性を示すために、我々はフレームワークを様々なモデル中心の手法と統合し、4つの広く採用されているデータセット間で大きなパフォーマンス改善を観察する。
論文 参考訳(メタデータ) (2024-05-28T03:45:34Z) - Deep autoregressive density nets vs neural ensembles for model-based
offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。
このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。
D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:18:15Z) - S^3-Rec: Self-Supervised Learning for Sequential Recommendation with
Mutual Information Maximization [104.87483578308526]
本稿では,シーケンスレコメンデーションのための自己改善学習のためのモデルS3-Recを提案する。
そこで本稿では,属性,項目,サブシーケンス,シーケンス間の相関関係を学習するために,4つの補助的自己教師対象を考案する。
6つの実世界のデータセットで実施された大規模な実験は、既存の最先端手法よりも提案手法が優れていることを示す。
論文 参考訳(メタデータ) (2020-08-18T11:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。