論文の概要: TF-DCon: Leveraging Large Language Models (LLMs) to Empower Training-Free Dataset Condensation for Content-Based Recommendation
- arxiv url: http://arxiv.org/abs/2310.09874v4
- Date: Mon, 11 Nov 2024 06:16:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:03:01.193851
- Title: TF-DCon: Leveraging Large Language Models (LLMs) to Empower Training-Free Dataset Condensation for Content-Based Recommendation
- Title(参考訳): TF-DCon:Large Language Models(LLMs)を活用してコンテンツベースのレコメンデーションのためのトレーニングフリーデータセット凝縮を実現する
- Authors: Jiahao Wu, Qijiong Liu, Hengchang Hu, Wenqi Fan, Shengcai Liu, Qing Li, Xiao-Ming Wu, Ke Tang,
- Abstract要約: コンテンツベースのレコメンデーション(CBR)のモダンなテクニックは、アイテムコンテンツ情報を活用して、ユーザにパーソナライズされたサービスを提供するが、大規模なデータセットでのリソース集約的なトレーニングに苦しむ。
そこで我々は,大規模なデータセットで訓練されたデータセットに匹敵する性能をモデルが達成できるような,小さいが情報に富むデータセットを合成するために,データセット凝縮を提案する。
データセットのサイズを95%削減しながら、元のパフォーマンスの97%を近似することができます(すなわち、データセットMIND上で)。
- 参考スコア(独自算出の注目度): 28.567219434790875
- License:
- Abstract: Modern techniques in Content-based Recommendation (CBR) leverage item content information to provide personalized services to users, but suffer from resource-intensive training on large datasets. To address this issue, we explore the dataset condensation for textual CBR in this paper. The goal of dataset condensation is to synthesize a small yet informative dataset, upon which models can achieve performance comparable to those trained on large datasets. While existing condensation approaches are tailored to classification tasks for continuous data like images or embeddings, direct application of them to CBR has limitations. To bridge this gap, we investigate efficient dataset condensation for content-based recommendation. Inspired by the remarkable abilities of large language models (LLMs) in text comprehension and generation, we leverage LLMs to empower the generation of textual content during condensation. To handle the interaction data involving both users and items, we devise a dual-level condensation method: content-level and user-level. At content-level, we utilize LLMs to condense all contents of an item into a new informative title. At user-level, we design a clustering-based synthesis module, where we first utilize LLMs to extract user interests. Then, the user interests and user embeddings are incorporated to condense users and generate interactions for condensed users. Notably, the condensation paradigm of this method is forward and free from iterative optimization on the synthesized dataset. Extensive empirical findings from our study, conducted on three authentic datasets, substantiate the efficacy of the proposed method. Particularly, we are able to approximate up to 97% of the original performance while reducing the dataset size by 95% (i.e., on dataset MIND).
- Abstract(参考訳): コンテンツベースのレコメンデーション(CBR)のモダンなテクニックは、アイテムコンテンツ情報を活用して、ユーザにパーソナライズされたサービスを提供するが、大規模なデータセットでのリソース集約的なトレーニングに苦しむ。
この問題に対処するため,本論文ではテキストCBRのデータセット凝縮について検討する。
データセットの凝縮の目標は、大規模なデータセットでトレーニングされたデータセットに匹敵するパフォーマンスをモデルが達成できるような、小さいが有益なデータセットを合成することである。
既存の凝縮アプローチは、画像や埋め込みのような連続データに対する分類タスクに適合するが、それらのCBRへの直接適用には制限がある。
このギャップを埋めるために、コンテンツベースの推薦のための効率的なデータセット凝縮について検討する。
テキスト理解と生成における大きな言語モデル(LLM)の顕著な能力に着想を得て,LLMを活用し,凝縮中のテキストコンテンツの生成を促進する。
ユーザとアイテムの両方のインタラクションデータを扱うために,コンテンツレベルとユーザレベルという2レベル凝縮法を考案した。
コンテンツレベルでは、LCMを用いてアイテムの全内容を新しい情報タイトルにコンデンスする。
ユーザレベルではクラスタリングに基づく合成モジュールを設計し,まず LLM を用いてユーザの興味を抽出する。
そして、ユーザ興味とユーザ埋め込みを組み込んで、ユーザを凝縮させ、凝縮したユーザのためのインタラクションを生成する。
特に、この手法の凝縮パラダイムは前方であり、合成データセットの反復最適化は不要である。
提案手法の有効性を実証するため,3つの真正データセットを用いて実験を行った。
特に、データセットのサイズを95%削減しながら、元のパフォーマンスの最大97%を近似することができます。
関連論文リスト
- UserSumBench: A Benchmark Framework for Evaluating User Summarization Approaches [25.133460380551327]
大規模言語モデル(LLM)は、大量のユーザアクティビティデータからユーザ要約を生成する際、顕著な能力を示している。
これらの要約は、好みや興味などの重要なユーザー情報を取り込み、パーソナライズ・アプリケーションには有用である。
しかし, 新たな要約手法の開発は, ゼロ・トラストラベルの欠如, ユーザ・サマリー固有の主観性, 人的評価などによって妨げられている。
論文 参考訳(メタデータ) (2024-08-30T01:56:57Z) - Towards Enhancing Coherence in Extractive Summarization: Dataset and Experiments with LLMs [70.15262704746378]
我々は,5つの公開データセットと自然言語ユーザフィードバックのためのコヒーレントな要約からなる,体系的に作成された人間アノテーションデータセットを提案する。
Falcon-40BとLlama-2-13Bによる予備的な実験では、コヒーレントなサマリーを生成するという点で大幅な性能向上(10%ルージュ-L)が見られた。
論文 参考訳(メタデータ) (2024-07-05T20:25:04Z) - ReCaLL: Membership Inference via Relative Conditional Log-Likelihoods [56.073335779595475]
ReCaLL (Relative Conditional Log-Likelihood) という新しいメンバーシップ推論攻撃(MIA)を提案する。
ReCaLLは、ターゲットデータポイントを非メンバーコンテキストでプレフィックスする場合、条件付きログライクな状態の相対的変化を調べる。
我々は総合的な実験を行い、ReCaLLがWikiMIAデータセット上で最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-06-23T00:23:13Z) - EmbSum: Leveraging the Summarization Capabilities of Large Language Models for Content-Based Recommendations [38.44534579040017]
ユーザと候補項目のオフライン事前計算を可能にするフレームワークであるEmbSumを紹介する。
このモデルがユーザ興味の要約を生成する能力は貴重な副産物であり、パーソナライズされたコンテンツレコメンデーションに有用である。
論文 参考訳(メタデータ) (2024-05-19T04:31:54Z) - CELA: Cost-Efficient Language Model Alignment for CTR Prediction [71.85120354973073]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最重要位置を占める。
最近の取り組みは、プレトレーニング言語モデル(PLM)を統合することでこれらの課題を緩和しようとしている。
CTR予測のためのtextbfCost-textbfEfficient textbfLanguage Model textbfAlignment (textbfCELA)を提案する。
論文 参考訳(メタデータ) (2024-05-17T07:43:25Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - Dataset Condensation for Recommendation [29.239833773646975]
推奨に適した軽量凝縮フレームワーク(DConRec)を提案する。
我々は,確率論的アプローチによる個別のユーザとイテムのインタラクションをモデル化し,ユーザの潜在的な嗜好を凝縮したデータセットに組み込むために,事前拡張モジュールを設計する。
複数の実世界のデータセットに対する実験結果から,本フレームワークの有効性と有効性が確認された。
論文 参考訳(メタデータ) (2023-10-02T09:30:11Z) - DC-BENCH: Dataset Condensation Benchmark [79.18718490863908]
この研究は、データセットの凝縮に関する最初の大規模標準ベンチマークを提供する。
それは、凝縮法の生成可能性と有効性を包括的に反映する一連の評価から成り立っている。
ベンチマークライブラリは、将来の研究とアプリケーションを容易にするためにオープンソース化されている。
論文 参考訳(メタデータ) (2022-07-20T03:54:05Z) - Semi-supervised Interactive Intent Labeling [6.99674326582747]
SDS開発者向けのインテントバルクラベルシステムを開発しました。
ユーザはラベルのない発話コーパスからのトレーニングデータをインタラクティブにラベル付けし、拡張することができる。
いくつかのデータセットでは,クラスタリング精度が10%以上向上している。
論文 参考訳(メタデータ) (2021-04-27T18:06:55Z) - Mining Implicit Entity Preference from User-Item Interaction Data for
Knowledge Graph Completion via Adversarial Learning [82.46332224556257]
本稿では,知識グラフ補完タスクにおけるユーザインタラクションデータを活用することで,新たな逆学習手法を提案する。
我々のジェネレータはユーザインタラクションデータから分離されており、識別器の性能を向上させるのに役立ちます。
利用者の暗黙の実体的嗜好を発見するために,グラフニューラルネットワークに基づく精巧な協調学習アルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-03-28T05:47:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。