論文の概要: SimAug: Enhancing Recommendation with Pretrained Language Models for Dense and Balanced Data Augmentation
- arxiv url: http://arxiv.org/abs/2505.01695v1
- Date: Sat, 03 May 2025 04:59:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.231833
- Title: SimAug: Enhancing Recommendation with Pretrained Language Models for Dense and Balanced Data Augmentation
- Title(参考訳): SimAug: ディエンスとバランスの取れたデータ拡張のための事前訓練された言語モデルによる勧告の強化
- Authors: Yuying Zhao, Xiaodong Yang, Huiyuan Chen, Xiran Fan, Yu Wang, Yiwei Cai, Tyler Derr,
- Abstract要約: ディープニューラルネットワーク(DNN)は、協調フィルタリングに広く使われている。
これらのシステムは、ユーザとアイテムの埋め込みを学ぶために、インタラクションデータに依存する。
事前学習言語モデル(PLM)を用いて、テキスト情報との相互作用データを強化し、より密でバランスの取れたデータセットを生み出す。
9つのデータセットを対象とした実験では,SimAugが生成した拡張データによるトレーニングにおいて,実用性と公正性の両方の改善が一貫して示されている。
- 参考スコア(独自算出の注目度): 21.569799852131847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Neural Networks (DNNs) are extensively used in collaborative filtering due to their impressive effectiveness. These systems depend on interaction data to learn user and item embeddings that are crucial for recommendations. However, the data often suffers from sparsity and imbalance issues: limited observations of user-item interactions can result in sub-optimal performance, and a predominance of interactions with popular items may introduce recommendation bias. To address these challenges, we employ Pretrained Language Models (PLMs) to enhance the interaction data with textual information, leading to a denser and more balanced dataset. Specifically, we propose a simple yet effective data augmentation method (SimAug) based on the textual similarity from PLMs, which can be seamlessly integrated to any systems as a lightweight, plug-and-play component in the pre-processing stage. Our experiments across nine datasets consistently demonstrate improvements in both utility and fairness when training with the augmented data generated by SimAug. The code is available at https://github.com/YuyingZhao/SimAug.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、その顕著な効果のために、協調フィルタリングに広く利用されている。
これらのシステムは、ユーザとアイテムの埋め込みを学ぶために、インタラクションデータに依存する。
しかし、データはスパーシリティや不均衡の問題に悩まされることが多く、ユーザとイテムのインタラクションの観察が限られると、最適以下のパフォーマンスが得られ、人気のあるアイテムとのインタラクションの優位性が推奨バイアスを引き起こす可能性がある。
これらの課題に対処するために、プレトレーニング言語モデル(PLM)を使用して、テキスト情報とのインタラクションデータを強化し、より密集し、よりバランスの取れたデータセットを作成します。
具体的には,PLMのテキスト的類似性に基づくシンプルで効果的なデータ拡張手法(SimAug)を提案する。
9つのデータセットを対象とした実験では,SimAugが生成した拡張データによるトレーニングにおいて,実用性と公正性の両方の改善が一貫して示されている。
コードはhttps://github.com/YuyingZhao/SimAug.comで入手できる。
関連論文リスト
- Unsupervised Topic Models are Data Mixers for Pre-training Language Models [6.77198566340415]
大規模言語モデル(LLM)のためのトピックベースのデータ混合戦略を提案する。
DataWeaveは、セマンティックに類似したドキュメントをグループ化するために、マルチステージクラスタリングプロセスを採用している。
我々は、サイエンスとリレーションシップのトピックが特に効果的であることを確認し、最も実質的なパフォーマンス改善をもたらす。
論文 参考訳(メタデータ) (2025-02-24T03:25:56Z) - Leveraging Variation Theory in Counterfactual Data Augmentation for Optimized Active Learning [19.962212551963383]
アクティブラーニング(AL)は、モデルがユーザフィードバックからインタラクティブに学習することを可能にする。
本稿では,ALに反実データ拡張手法を提案する。
論文 参考訳(メタデータ) (2024-08-07T14:55:04Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - MixAugment & Mixup: Augmentation Methods for Facial Expression
Recognition [4.273075747204267]
我々はMixAugmentと呼ばれるMixupに基づく新しいデータ拡張戦略を提案する。
本研究は、MixAugment over Mixupおよび様々な最先端手法の有効性を実証する広範囲な実験的研究を行う。
論文 参考訳(メタデータ) (2022-05-09T17:43:08Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Leveraging Historical Interaction Data for Improving Conversational
Recommender System [105.90963882850265]
アイテムと属性に基づく嗜好シーケンスを統合するための,新しい事前学習手法を提案する。
実世界の2つのデータセットの実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2020-08-19T03:43:50Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。