論文の概要: Efficient Content-based Recommendation Model Training via Noise-aware Coreset Selection
- arxiv url: http://arxiv.org/abs/2601.10067v1
- Date: Thu, 15 Jan 2026 04:46:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:18.990968
- Title: Efficient Content-based Recommendation Model Training via Noise-aware Coreset Selection
- Title(参考訳): 雑音を考慮したコアセット選択による効率的なコンテンツベース推薦モデルトレーニング
- Authors: Hung Vinh Tran, Tong Chen, Hechuan Wen, Quoc Viet Hung Nguyen, Bin Cui, Hongzhi Yin,
- Abstract要約: ノイズ対応コアセット選択(NaCS)は、コンテンツベースのレコメンデーションシステムのための特殊なフレームワークである。
NaCSは、トレーニング勾配に基づいてサブモジュール最適化によってコアセットを構築し、ノイズラベルを同時に修正する。
我々は,NACSが既存のコアセット選択技術よりも優れた効率を実現しつつ,CRSの高品質なコアセットを生成することを示す。
- 参考スコア(独自算出の注目度): 43.57971566335706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Content-based recommendation systems (CRSs) utilize content features to predict user-item interactions, serving as essential tools for helping users navigate information-rich web services. However, ensuring the effectiveness of CRSs requires large-scale and even continuous model training to accommodate diverse user preferences, resulting in significant computational costs and resource demands. A promising approach to this challenge is coreset selection, which identifies a small but representative subset of data samples that preserves model quality while reducing training overhead. Yet, the selected coreset is vulnerable to the pervasive noise in user-item interactions, particularly when it is minimally sized. To this end, we propose Noise-aware Coreset Selection (NaCS), a specialized framework for CRSs. NaCS constructs coresets through submodular optimization based on training gradients, while simultaneously correcting noisy labels using a progressively trained model. Meanwhile, we refine the selected coreset by filtering out low-confidence samples through uncertainty quantification, thereby avoid training with unreliable interactions. Through extensive experiments, we show that NaCS produces higher-quality coresets for CRSs while achieving better efficiency than existing coreset selection techniques. Notably, NaCS recovers 93-95\% of full-dataset training performance using merely 1\% of the training data. The source code is available at \href{https://github.com/chenxing1999/nacs}{https://github.com/chenxing1999/nacs}.
- Abstract(参考訳): コンテンツベースのレコメンデーションシステム(CRS)は、コンテンツ機能を利用してユーザとイテムの相互作用を予測する。
しかし、CRSの有効性を保証するためには、多様なユーザの嗜好を満たすため、大規模かつ連続的なモデルトレーニングが必要であるため、計算コストとリソース要求が大幅に増大する。
この課題に対する有望なアプローチはコアセット選択(coreset selection)である。これは、トレーニングのオーバーヘッドを減らしながらモデル品質を保存する、小さなが代表的なデータサンプルのサブセットを特定するものだ。
しかし、選択されたコアセットは、特に最小サイズである場合、ユーザとイテムインタラクションの広範にわたるノイズに対して脆弱である。
そこで我々は,CRSのための特殊なフレームワークであるNaCS(Noss-Aware Coreset Selection)を提案する。
NaCSは、トレーニング勾配に基づいてサブモジュラー最適化によってコアセットを構築し、漸進的に訓練されたモデルを用いてノイズラベルを同時に修正する。
一方、不確実な定量化によって低信頼度サンプルをフィルタリングすることにより、選択されたコアセットを洗練し、信頼できない相互作用によるトレーニングを避ける。
広範な実験により、NACSは既存のコアセット選択技術よりも優れた効率を達成しつつ、CRSの高品質なコアセットを生成することを示した。
特に、NACSはトレーニングデータの1\%だけを使用して、フルデータセットトレーニングパフォーマンスの93-95\%を回復する。
ソースコードは \href{https://github.com/chenxing 1999/nacs}{https://github.com/chenxing1999/nacs} で公開されている。
関連論文リスト
- Improving Model Classification by Optimizing the Training Dataset [3.987352341101438]
Coresetsはデータ削減に対する原則的なアプローチを提供し、大規模なデータセットでの効率的な学習を可能にする。
下流の分類品質を向上させるために,コアセット生成プロセスを調整するための体系的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-22T16:10:11Z) - Enhancing Multimodal In-Context Learning for Image Classification through Coreset Optimization [45.48642232138223]
In-context Learning (ICL)により、LVLM(Large Vision-Language Models)はパラメータを更新せずに新しいタスクに適応できる。
本稿では,キーベースコアセット最適化(KeCO)を提案する。
KeCOは画像分類タスクのICL性能を効果的に向上し、平均20%以上の改善を実現している。
論文 参考訳(メタデータ) (2025-04-19T06:26:23Z) - Non-Uniform Class-Wise Coreset Selection: Characterizing Category Difficulty for Data-Efficient Transfer Learning [19.152700266277247]
Non-Uniform Class-Wise Coreset Selection (NUCS)は、クラスレベルとインスタンスレベルの両方の基準を統合する新しいフレームワークである。
我々の研究は、コアセット選択におけるカテゴリの難しさを特徴づけることの重要性を強調し、転送学習のための堅牢でデータ効率のよいソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-17T15:40:51Z) - Gradient Coreset for Federated Learning [27.04322811181904]
フェデレートラーニング(FL)は、複数のクライアントにまたがるデータを分割した機械学習モデルを学ぶために使用される。
本稿では,各クライアントのコアセットを選択するアルゴリズムを提案する。
我々のコアセット選択手法は,クライアントのデータ中のノイズを考慮した場合に非常に有効であることを示す。
論文 参考訳(メタデータ) (2024-01-13T06:17:17Z) - Refined Coreset Selection: Towards Minimal Coreset Size under Model
Performance Constraints [69.27190330994635]
コアセットの選択は、計算コストの削減とディープラーニングアルゴリズムのデータ処理の高速化に強力である。
本稿では,モデル性能とコアセットサイズに対する最適化優先順序を維持する革新的な手法を提案する。
実験的に、広範な実験によりその優位性が確認され、しばしばより小さなコアセットサイズでモデル性能が向上する。
論文 参考訳(メタデータ) (2023-11-15T03:43:04Z) - Data Summarization via Bilevel Optimization [48.89977988203108]
シンプルだが強力なアプローチは、小さなサブセットのデータを操作することだ。
本研究では,コアセット選択を基数制約付き双レベル最適化問題として定式化する汎用コアセットフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T09:08:38Z) - Online Coreset Selection for Rehearsal-based Continual Learning [65.85595842458882]
継続的な学習では、後に再生されるトレーニング例(コアセット)のサブセットを格納し、破滅的な忘れを軽減します。
提案するオンラインコアセット選択(OCS, Online Coreset Selection)は, 各イテレーションにおいて最も代表的で情報性の高いコアセットを選択するシンプルで効果的な方法である。
提案手法は,過去のタスクに対して高親和性サンプルを選択しながら,目標データセットへのモデル適応を最大化し,破滅的忘れを直接的に抑制する。
論文 参考訳(メタデータ) (2021-06-02T11:39:25Z) - Coresets via Bilevel Optimization for Continual Learning and Streaming [86.67190358712064]
濃度制約付き二レベル最適化による新しいコアセット構成を提案する。
我々のフレームワークがディープニューラルネットワークのコアセットを効率的に生成できることを示し、連続学習やストリーミング設定における経験的メリットを示す。
論文 参考訳(メタデータ) (2020-06-06T14:20:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。