Fugu-MT 論文翻訳(概要): Data Augmentation Strategies for Improving Sequential Recommender Systems

論文の概要: Data Augmentation Strategies for Improving Sequential Recommender Systems

arxiv url: http://arxiv.org/abs/2203.14037v1
Date: Sat, 26 Mar 2022 09:58:14 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-29 17:23:38.484821
Title: Data Augmentation Strategies for Improving Sequential Recommender Systems
Title（参考訳）: 逐次レコメンデーションシステム改善のためのデータ拡張戦略
Authors: Joo-yeong Song, Bongwon Suh
Abstract要約: 逐次リコメンデータシステムは近年,深層学習(DL)に基づく手法の活用により,大幅な性能向上を実現している。本稿では,データ拡張戦略のセットを提案する。これらすべては,元の項目列を直接汚職の方法で変換するものである。最新のDLベースのモデルの実験では、データ拡張の適用がモデルをより一般化するのに役立ちます。
参考スコア（独自算出の注目度）: 7.986899327513767
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Sequential recommender systems have recently achieved significant performance improvements with the exploitation of deep learning (DL) based methods. However, although various DL-based methods have been introduced, most of them only focus on the transformations of network structure, neglecting the importance of other influential factors including data augmentation. Obviously, DL-based models require a large amount of training data in order to estimate parameters well and achieve high performances, which leads to the early efforts to increase the training data through data augmentation in computer vision and speech domains. In this paper, we seek to figure out that various data augmentation strategies can improve the performance of sequential recommender systems, especially when the training dataset is not large enough. To this end, we propose a simple set of data augmentation strategies, all of which transform original item sequences in the way of direct corruption and describe how data augmentation changes the performance. Extensive experiments on the latest DL-based model show that applying data augmentation can help the model generalize better, and it can be significantly effective to boost model performances especially when the amount of training data is small. Furthermore, it is shown that our proposed strategies can improve performances to a better or competitive level to existing strategies suggested in the prior works.
Abstract（参考訳）: 逐次リコメンデータシステムは近年,深層学習(DL)に基づく手法の活用により,大幅な性能向上を実現している。しかし、様々なDLベースの手法が導入されたが、そのほとんどはネットワーク構造の変化にのみ焦点をあて、データ拡張を含む他の影響要因の重要性を無視している。明らかにdlベースのモデルは、パラメータをよく推定し、高いパフォーマンスを達成するために、大量のトレーニングデータを必要とするため、コンピュータビジョンと音声ドメインのデータ拡張を通じてトレーニングデータを増やすための初期的取り組みに繋がる。本稿では,トレーニングデータセットが十分に大きくない場合に,各種データ拡張戦略がシーケンシャルレコメンデータシステムの性能を向上させることを明らかにする。この目的のために,データ拡張戦略の簡易セットを提案する。これらすべてにおいて,データ拡張がパフォーマンスにどのような影響を与えるかを記述し,直接腐敗の方法で元の項目列を変換する。最新のDLベースモデルに対する大規模な実験により、データ拡張の適用はモデルの一般化に役立つことが示され、特にトレーニングデータの量が少ない場合には、モデルの性能を高めるのに非常に効果的である。さらに,提案手法は,先行研究で提案した既存戦略よりも,性能を向上し,競争力も向上できることを示した。

関連論文リスト

LLM Data Selection and Utilization via Dynamic Bi-level Optimization [100.20933466418786]
本研究では,各バッチ内で選択したデータの重み付けを調整し,トレーニング中の動的データ利用を実現するための新しいデータ重み付けモデル(DWM)を提案する。実験により,DWMはランダムに選択されたデータを用いて訓練されたモデルの性能を向上させることが示された。さらに、トレーニング中にモデルのデータ嗜好がどのように進化するかを分析し、トレーニング中のモデルのデータ嗜好に関する新たな洞察を提供する。
論文参考訳（メタデータ） (2025-07-22T02:47:12Z)
KARE-RAG: Knowledge-Aware Refinement and Enhancement for RAG [63.82127103851471]
Retrieval-Augmented Generation (RAG)は、大規模言語モデルがより広範な知識ソースにアクセスすることを可能にする。ノイズの多いコンテンツを処理するために生成モデルの能力を向上させることは、ロバストなパフォーマンスに等しく重要であることを実証する。本稿では,3つの重要なイノベーションを通じて知識利用を改善するKARE-RAGを提案する。
論文参考訳（メタデータ） (2025-06-03T06:31:17Z)
Diffusion Guidance Is a Controllable Policy Improvement Operator [98.11511661904618]
CFGRLは教師付き学習の単純さで訓練されているが、データ内のポリシーをさらに改善することができる。オフラインのRLタスクでは、信頼性の高いトレンドが観察されます -- ガイダンスの重み付けの増加によって、パフォーマンスが向上します。
論文参考訳（メタデータ） (2025-05-29T14:06:50Z)
Effective Dual-Region Augmentation for Reduced Reliance on Large Amounts of Labeled Data [1.0901840476380924]
本稿では,大規模ラベル付きデータセットへの依存を減らすために,新しい二重領域拡張手法を提案する。提案手法は,前景オブジェクトにランダムノイズ摂動を適用することで,対象データ変換を行う。 SFDAのためのPACSデータセットの評価は、当社の増補戦略が既存の手法を一貫して上回っていることを示している。 Market-1501とDukeMTMC-reIDデータセットの実験は、我々のアプローチの有効性を検証する。
論文参考訳（メタデータ） (2025-04-17T16:42:33Z)
Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文参考訳（メタデータ） (2025-02-10T17:57:15Z)
Data Efficiency for Large Recommendation Models [4.799343040337817]
大規模なレコメンデーションモデル(LRMs)は、数十億ドル規模のオンライン広告業界にとって基本である。膨大なデータのスケールは、計算コストと新しい手法を評価できる速度の両方に直接的な影響を及ぼす。本稿では,データ要件を最適化する実践者を支援するための実行可能な原則と高レベルフレームワークを提案する。
論文参考訳（メタデータ） (2024-10-08T22:18:00Z)
Data Augmentation for Multivariate Time Series Classification: An Experimental Study [1.5390962520179197]
これらのデータセットのサイズは限られていますが、RocketとInceptionTimeモデルを使用して、13のデータセットのうち10の分類精度を向上しました。これは、コンピュータビジョンで見られる進歩と並行して、効果的なモデルを訓練する上で、十分なデータの重要性を強調している。
論文参考訳（メタデータ） (2024-06-10T17:58:02Z)
Rethinking Overlooked Aspects in Vision-Language Models [32.525916879333145]
近年の視覚言語モデル(LVLM)の進歩は顕著である。最近の研究は、モデルの性能を向上させるために、事前学習と指導のチューニングデータの導入に重点を置いている。本稿では,事前学習におけるデータ効率の非無視的な側面と,トレーニングデータセットの選択過程について述べる。
論文参考訳（メタデータ） (2024-05-20T07:53:41Z)
Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文参考訳（メタデータ） (2024-02-28T08:34:23Z)
Small Dataset, Big Gains: Enhancing Reinforcement Learning by Offline Pre-Training with Model Based Augmentation [59.899714450049494]
オフラインの事前トレーニングは、準最適ポリシーを生成し、オンライン強化学習のパフォーマンスを低下させる可能性がある。本稿では,オフライン強化学習による事前学習のメリットを最大化し,有効となるために必要なデータの規模を削減するためのモデルベースデータ拡張戦略を提案する。
論文参考訳（メタデータ） (2023-12-15T14:49:41Z)
Data-Centric Long-Tailed Image Recognition [49.90107582624604]
ロングテールモデルは高品質なデータに対する強い需要を示している。データ中心のアプローチは、モデルパフォーマンスを改善するために、データの量と品質の両方を強化することを目的としています。現在、情報強化の有効性を説明するメカニズムに関する研究が不足している。
論文参考訳（メタデータ） (2023-11-03T06:34:37Z)
Phased Data Augmentation for Training a Likelihood-Based Generative Model with Limited Data [0.0]
生成モデルは現実的なイメージの作成に優れていますが、トレーニングのための広範なデータセットに依存しているため、大きな課題があります。現在のデータ効率の手法はGANアーキテクチャに重点を置いており、他の生成モデルの訓練にギャップを残している。位相データ拡張(phased data augmentation)は、このギャップに対処する新しい手法であり、データ分散に固有の変更を加えることなく、限られたデータシナリオでのトレーニングを最適化する。
論文参考訳（メタデータ） (2023-05-22T03:38:59Z)
Regularizing Generative Adversarial Networks under Limited Data [88.57330330305535]
本研究は、限られたデータ上で堅牢なGANモデルをトレーニングするための正規化手法を提案する。正規化損失とLeCam-divergenceと呼ばれるf-divergenceの関連性を示す。
論文参考訳（メタデータ） (2021-04-07T17:59:06Z)
Adaptive Weighting Scheme for Automatic Time-Series Data Augmentation [79.47771259100674]
データ拡張のための2つのサンプル適応自動重み付けスキームを提案する。提案手法を大規模でノイズの多い財務データセットとUCRアーカイブからの時系列データセット上で検証する。金融データセットでは、取引戦略と組み合わせた手法が50 $%$以上の年間収益の改善につながることを示し、時系列データでは、データセットの半分以上で最新モデルを上回るパフォーマンスを発揮し、他のものと同様の精度を達成しています。
論文参考訳（メタデータ） (2021-02-16T17:50:51Z)
Generalization in Reinforcement Learning by Soft Data Augmentation [11.752595047069505]
SODA(Soft Data Augmentation)は、政策学習からAugmentationを分離する手法である。我々は、最先端のビジョンベースRL法によるトレーニングにおいて、サンプル効率、一般化、安定性を著しく向上するSODAを見出した。
論文参考訳（メタデータ） (2020-11-26T17:00:34Z)
Generative Data Augmentation for Commonsense Reasoning [75.26876609249197]
G-DAUGCは、低リソース環境でより正確で堅牢な学習を実現することを目的とした、新しい生成データ拡張手法である。 G-DAUGCは、バックトランスレーションに基づく既存のデータ拡張手法を一貫して上回っている。分析の結果,G-DAUGCは多種多様な流線型学習例を産出し,その選択と学習アプローチが性能向上に重要であることが示された。
論文参考訳（メタデータ） (2020-04-24T06:12:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。