論文の概要: STORE: Streamlining Semantic Tokenization and Generative Recommendation with A Single LLM
- arxiv url: http://arxiv.org/abs/2409.07276v2
- Date: Fri, 13 Sep 2024 04:16:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 15:56:06.344897
- Title: STORE: Streamlining Semantic Tokenization and Generative Recommendation with A Single LLM
- Title(参考訳): STORE: 単一のLLMによる意味的トークン化と生成レコメンデーションの合理化
- Authors: Qijiong Liu, Jieming Zhu, Lu Fan, Zhou Zhao, Xiao-Ming Wu,
- Abstract要約: 本稿では,意味的トークン化と生成的レコメンデーションプロセスを合理化する統合フレームワークを提案する。
我々は,意味的トークン化をテキスト・ツー・ケントタスクとして定式化し,生成的推薦をトークン・ツー・ケントタスクとして,トークン・ツー・ケント・コンストラクションタスクとテキスト・ツー・ケント補助タスクで補足する。
これらのタスクはすべて生成的な方法でフレーム化され、単一の大規模言語モデル(LLM)バックボーンを使用してトレーニングされる。
- 参考スコア(独自算出の注目度): 59.08493154172207
- License:
- Abstract: Traditional recommendation models often rely on unique item identifiers (IDs) to distinguish between items, which can hinder their ability to effectively leverage item content information and generalize to long-tail or cold-start items. Recently, semantic tokenization has been proposed as a promising solution that aims to tokenize each item's semantic representation into a sequence of discrete tokens. In this way, it preserves the item's semantics within these tokens and ensures that semantically similar items are represented by similar tokens. These semantic tokens have become fundamental in training generative recommendation models. However, existing generative recommendation methods typically involve multiple sub-models for embedding, quantization, and recommendation, leading to an overly complex system. In this paper, we propose to streamline the semantic tokenization and generative recommendation process with a unified framework, dubbed STORE, which leverages a single large language model (LLM) for both tasks. Specifically, we formulate semantic tokenization as a text-to-token task and generative recommendation as a token-to-token task, supplemented by a token-to-text reconstruction task and a text-to-token auxiliary task. All these tasks are framed in a generative manner and trained using a single LLM backbone. Extensive experiments have been conducted to validate the effectiveness of our STORE framework across various recommendation tasks and datasets. We will release the source code and configurations for reproducible research.
- Abstract(参考訳): 伝統的なレコメンデーションモデルは、アイテムを区別するためにユニークなアイテム識別子(ID)に依存しており、アイテムのコンテンツ情報を効果的に活用し、ロングテールやコールドスタートアイテムに一般化する能力を妨げている。
近年,各項目のセマンティック表現を離散トークン列にトークン化することを目的とした,有望なソリューションとしてセマンティックトークン化が提案されている。
このようにして、これらのトークン内でアイテムのセマンティクスを保持し、意味的に類似したアイテムが同様のトークンで表現されることを保証する。
これらの意味トークンは、生成的レコメンデーションモデルのトレーニングにおいて基本となっている。
しかし、既存の生成的レコメンデーション手法は一般的に、埋め込み、量子化、レコメンデーションのための複数のサブモデルを含み、過度に複雑なシステムに繋がる。
本稿では,2つのタスクに1つの大きな言語モデル(LLM)を利用するSTOREという統合フレームワークを用いて,意味的トークン化と生成的レコメンデーションプロセスの合理化を提案する。
具体的には、意味的トークン化をテキスト・ツー・ケンのタスクとして定式化し、生成的推薦をトークン・ツー・ケンのタスクとして、トークン・ツー・ケンの再構築タスクとテキスト・ツー・ケンの補助タスクで補足する。
これらのタスクはすべて生成的な方法でフレーム化され、単一のLCMバックボーンを使用してトレーニングされる。
さまざまなレコメンデーションタスクやデータセットにまたがって,STOREフレームワークの有効性を検証するための大規模な実験が実施されている。
再現可能な研究のためのソースコードと構成をリリースします。
関連論文リスト
- TokenRec: Learning to Tokenize ID for LLM-based Generative Recommendation [16.93374578679005]
TokenRecは、大規模言語モデル(LLM)ベースのRecommender Systems(RecSys)のトークン化と検索のための新しいフレームワークである。
我々の戦略であるMasked Vector-Quantized (MQ) Tokenizerは、協調フィルタリングから学んだマスキングされたユーザ/イテム表現を離散トークンに定量化する。
我々の生成的検索パラダイムは,自動回帰復号処理やビーム検索処理の不要さを解消するために,ユーザに対してKドル以上のアイテムを効率的に推奨するように設計されている。
論文 参考訳(メタデータ) (2024-06-15T00:07:44Z) - SEP: Self-Enhanced Prompt Tuning for Visual-Language Model [68.68025991850115]
SEP(Self-Enhanced Prompt Tuning)という新しいアプローチを導入する。
SEPは、テキストレベルの埋め込みと視覚レベルの埋め込みの両方を強化するために、差別的な事前知識を明示的に取り入れている。
様々なベンチマークやタスクの総合的な評価は、プロンプトチューニングにおけるSEPの有効性を確認している。
論文 参考訳(メタデータ) (2024-05-24T13:35:56Z) - Uncovering Prototypical Knowledge for Weakly Open-Vocabulary Semantic
Segmentation [59.37587762543934]
本稿では,弱開語彙セマンティックセマンティックセグメンテーション(WOVSS)の問題点について検討する。
既存の方法は、グループトークンの使用に関する粒度の矛盾に悩まされる。
マルチモーダル正規化を組み込んだプロトタイプ誘導ネットワーク(PGSeg)を提案する。
論文 参考訳(メタデータ) (2023-10-29T13:18:00Z) - Language Models As Semantic Indexers [78.83425357657026]
本稿では,ジェネレーティブ言語モデルを用いてセマンティックIDを学習するための自己教師型フレームワークLMIndexerを紹介する。
学習したIDの質を検証し,推奨,製品検索,文書検索の3つの課題において有効性を示す。
論文 参考訳(メタデータ) (2023-10-11T18:56:15Z) - Preserving Modality Structure Improves Multi-Modal Learning [64.10085674834252]
大規模マルチモーダルデータセットによる自己教師付き学習は、人間のアノテーションに頼ることなく、意味的に意味のある埋め込みを学ぶことができる。
これらの手法は、モダリティ固有の埋め込みに存在する意味構造を無視して、ドメイン外のデータをうまく一般化するのに苦労することが多い。
共同埋め込み空間におけるモダリティ特異的な関係を保ち, 一般化性を向上させるためのセマンティック・構造保存整合性アプローチを提案する。
論文 参考訳(メタデータ) (2023-08-24T20:46:48Z) - Recommender Systems with Generative Retrieval [58.454606442670034]
本稿では,対象候補の識別子を自己回帰的に復号する新たな生成検索手法を提案する。
そのために、各項目のセマンティックIDとして機能するために、意味論的に意味のあるコードワードを作成します。
提案手法を用いて学習した推薦システムは,様々なデータセット上での現在のSOTAモデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-08T21:48:17Z) - LabelPrompt: Effective Prompt-based Learning for Relation Classification [31.291466190218912]
本稿では,関係分類タスクのための新しいプロンプト型学習手法であるLabelPromptを提案する。
GIVE MODEL CHOICES!'の直感により、まず関係ラベルを表すための追加トークンを定義し、これらのトークンを意味的初期化を伴う動詞としてみなす。
そして、予測関係と与えられた実体との整合性を緩和するために、コントラスト学習を伴うエンティティ認識モジュールを実装した。
論文 参考訳(メタデータ) (2023-02-16T04:06:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。