論文の概要: Tokenize Once, Recommend Anywhere: Unified Item Tokenization for Multi-domain LLM-based Recommendation
- arxiv url: http://arxiv.org/abs/2511.12922v1
- Date: Mon, 17 Nov 2025 03:18:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.63346
- Title: Tokenize Once, Recommend Anywhere: Unified Item Tokenization for Multi-domain LLM-based Recommendation
- Title(参考訳): Tokenize Once, Recommend Anywhere: Unified Item Tokenization for Multi-domain LLM-based Recommendation
- Authors: Yu Hou, Won-Yong Shin,
- Abstract要約: UniTokは、Mix-of-Experts(MoE)アーキテクチャと一連のコードブックを統合する統一アイテムトークン化フレームワークです。
異なるドメインからのアイテムは、まず共有エンコーダを通じて統一された潜在空間に投影される。
ドメイン固有のエキスパートにルーティングされてユニークなセマンティクスをキャプチャし、共有されたエキスパートは、常にアクティブで、ドメイン間の共通の知識をエンコードする。
- 参考スコア(独自算出の注目度): 17.136684625966073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM)-based recommender systems have achieved high-quality performance by bridging the discrepancy between the item space and the language space through item tokenization. However, existing item tokenization methods typically require training separate models for each item domain, limiting generalization. Moreover, the diverse distributions and semantics across item domains make it difficult to construct a unified tokenization that preserves domain-specific information. To address these challenges, we propose UniTok, a Unified item Tokenization framework that integrates our own mixture-of-experts (MoE) architecture with a series of codebooks to convert items into discrete tokens, enabling scalable tokenization while preserving semantic information across multiple item domains. Specifically, items from different domains are first projected into a unified latent space through a shared encoder. They are then routed to domain-specific experts to capture the unique semantics, while a shared expert, which is always active, encodes common knowledge transferable across domains. Additionally, to mitigate semantic imbalance across domains, we present a mutual information calibration mechanism, which guides the model towards retaining similar levels of semantic information for each domain. Comprehensive experiments on wide-ranging real-world datasets demonstrate that the proposed UniTok framework is (a) highly effective: achieving up to 51.89% improvements over strong benchmarks, (b) theoretically sound: showing the analytical validity of our architectural design and optimization; and (c) highly generalizable: demonstrating robust performance across diverse domains without requiring per-domain retraining, a capability not supported by existing baselines.
- Abstract(参考訳): 大規模言語モデル(LLM)に基づくレコメンデータシステムは,アイテム空間と言語空間の相違をアイテムトークン化を通じてブリッジすることで,高品質な性能を実現している。
しかし、既存のアイテムトークン化法は一般的に、各アイテムドメインに対して個別のモデルをトレーニングし、一般化を制限する必要がある。
さらに、アイテムドメイン間の多様な分布とセマンティクスは、ドメイン固有の情報を保存する統一トークン化の構築を困難にしている。
これらの課題に対処するため、我々はUniTokを提案する。UniTokは、我々のMix-of-Experts(MoE)アーキテクチャを一連のコードブックと統合し、アイテムを個別のトークンに変換し、スケーラブルなトークン化を可能にし、複数のアイテムドメインにまたがる意味情報を保存する。
具体的には、異なるドメインのアイテムを共有エンコーダを通じて、まず統一された潜在空間に投影する。
ドメイン固有のエキスパートにルーティングされてユニークなセマンティクスをキャプチャし、共有されたエキスパートは常にアクティブで、ドメイン間で共有される知識をエンコードする。
さらに,ドメイン間のセマンティック不均衡を軽減するために,ドメイン毎に同様のセマンティック情報を保持するための相互情報校正機構を提案する。
広帯域実世界のデータセットに関する総合実験により、提案したUniTokフレームワークが実証された。
(a)非常に効果的な:強いベンチマークよりも最大51.89%の改善を達成する。
b)理論上の健全性:建築設計及び最適化の分析上の妥当性を示すこと
(c) 高度に一般化可能な: ドメイン単位の再トレーニングを必要とせずに、さまざまなドメイン間で堅牢なパフォーマンスを示す。
関連論文リスト
- RecGPT: A Foundation Model for Sequential Recommendation [16.464972558861497]
我々は、真にゼロショットの一般化機能を実現するための逐次レコメンデーションのための基礎モデルを開発する。
提案手法は,テキスト機能のみからアイテム表現を導出することで,既存のIDベースの手法から逸脱する。
我々は、不均一なテキスト記述を標準化された離散トークンに変換するFinite Scalar Quantizationと統合されたアイテムトークン化を導入する。
論文 参考訳(メタデータ) (2025-06-06T17:53:02Z) - Universal Item Tokenization for Transferable Generative Recommendation [89.42584009980676]
本稿では、転送可能な生成レコメンデーションのためのユニバーサルアイテムトークン化手法であるUTGRecを提案する。
木構造コードブックを考案することにより、コンテンツ表現をアイテムトークン化のための対応するコードに識別する。
生のコンテンツ再構成には、アイテムテキストとイメージを離散表現から再構成するために、デュアルライトウェイトデコーダを用いる。
協調的知識統合においては,共起的アイテムが類似していると仮定し,共起的アライメントと再構築を通じて協調的信号を統合する。
論文 参考訳(メタデータ) (2025-04-06T08:07:49Z) - Cross-domain Recommender Systems via Multimodal Domain Adaptation [2.306402684958048]
コラボレーティブ・フィルタリング(CF)は、レコメンダ・システムを構築するための最も顕著な実装戦略の1つです。
クロスドメインCFは、複数のドメインにまたがる共通のエンティティ(ユーザまたはアイテム)を見つけることで、データ疎結合の問題を軽減する。
本稿では,ドメイン間のエンティティの埋め込みを整合させるドメイン適応手法を提案する。
論文 参考訳(メタデータ) (2023-06-24T07:27:43Z) - Multi-Domain Learning From Insufficient Annotations [26.83058974786833]
マルチドメイン学習とは、異なるドメインから収集されたデータセット上にモデルまたはモデルのセットを同時に構築することを指す。
本稿では,アノテーション不足の影響を軽減するために,マルチドメインコントラスト学習という新しい手法を提案する。
5つのデータセットにわたる実験結果から、MDCLは様々なSPモデルに対して顕著な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2023-05-04T11:50:19Z) - Compound Domain Generalization via Meta-Knowledge Encoding [55.22920476224671]
マルチモーダル分布を再正規化するために,スタイル駆動型ドメイン固有正規化(SDNorm)を導入する。
組込み空間における関係モデリングを行うために,プロトタイプ表現,クラスセントロイドを利用する。
4つの標準ドメイン一般化ベンチマークの実験により、COMENはドメインの監督なしに最先端のパフォーマンスを上回ることが判明した。
論文 参考訳(メタデータ) (2022-03-24T11:54:59Z) - Structured Latent Embeddings for Recognizing Unseen Classes in Unseen
Domains [108.11746235308046]
本稿では,異なる領域からの画像を投影することで,ドメインに依存しない遅延埋め込みを学習する手法を提案する。
挑戦的なDomainNetとDomainNet-LSベンチマークの実験は、既存のメソッドよりもアプローチの方が優れていることを示している。
論文 参考訳(メタデータ) (2021-07-12T17:57:46Z) - Universal-RCNN: Universal Object Detector via Transferable Graph R-CNN [117.80737222754306]
我々はUniversal-RCNNと呼ばれる新しいユニバーサルオブジェクト検出器を提案する。
まず、すべてのカテゴリの高レベルなセマンティック表現を統合することで、グローバルなセマンティックプールを生成する。
ドメイン内推論モジュールは、空間認識GCNによってガイドされる1つのデータセット内のスパースグラフ表現を学習し、伝播する。
論文 参考訳(メタデータ) (2020-02-18T07:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。