論文の概要: Deep Interest Mining with Cross-Modal Alignment for SemanticID Generation in Generative Recommendation
- arxiv url: http://arxiv.org/abs/2604.20861v1
- Date: Tue, 03 Mar 2026 13:36:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.122306
- Title: Deep Interest Mining with Cross-Modal Alignment for SemanticID Generation in Generative Recommendation
- Title(参考訳): ジェネレーションレコメンデーションにおけるセマンティックID生成のためのクロスモーダルアライメントを用いたディープゲストマイニング
- Authors: Yagchen Zeng,
- Abstract要約: Generative Recommendation (GR)は、数兆規模のデータを学習可能な語彙列に圧縮するためにセマンティックID(SID)に依存している。
既存の方法には3つの限界がある。
本稿では,Deep Contextual Interest Mining(DCIM),Cross-Modal Semantic Alignment(CMSA),Quality-Aware Reinforcement Mechanism(QARM)の3つの重要なイノベーションを統合する新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative Recommendation (GR) has demonstrated remarkable performance in next-token prediction paradigms, which relies on Semantic IDs (SIDs) to compress trillion-scale data into learnable vocabulary sequences. However, existing methods suffer from three critical limitations: (1) Information Degradation: the two-stage compression pipeline causes semantic loss and information degradation, with no posterior mechanism to distinguish high-quality from low-quality SIDs; (2) Semantic Degradation: cascaded quantization discards key semantic information from original multimodal features, as the embedding generation and quantization stages are not jointly optimized toward a unified objective; (3) Modality Distortion: quantizers fail to properly align text and image modalities, causing feature misalignment even when upstream networks have aligned them. To address these challenges, we propose a novel framework integrating three key innovations: Deep Contextual Interest Mining (DCIM), Cross-Modal Semantic Alignment (CMSA), and Quality-Aware Reinforcement Mechanism (QARM). First, we leverage Vision-Language Models (VLMs) to align non-textual modalities into a unified text-based semantic space, mitigating modality distortion. Second, we introduce a deep interest mining mechanism that captures high-level semantic information implicitly present in advertising contexts, encouraging SIDs to preserve critical contextual information through reconstruction-based supervision. Third, we employ a reinforcement learning framework with quality-aware rewards to encourage semantically rich SIDs while suppressing low-quality ones in the posterior stage. Extensive experiments demonstrate that our approach consistently outperforms state-of-the-art SID generation methods, achieving superior performance on multiple benchmarks. Ablation studies further validate the effectiveness of each proposed component
- Abstract(参考訳): Generative Recommendation (GR) は、数兆規模のデータを学習可能な語彙列に圧縮するためにセマンティックID(SID)に依存する次世代予測パラダイムにおいて顕著な性能を示した。
しかし,既存の手法では,(1)情報劣化:2段階圧縮パイプラインは,高品質なSIDと区別するための後続メカニズムを持たず,意味的損失と情報劣化を引き起こす。(2)セマンティック・デグラデーション:カスケード量子化:埋め込み生成と量子化の段階が統一目的に向けて共同最適化されていないため,キーセマンティック情報を元のマルチモーダル特徴から捨てる。(3)モダリティ・ディストーション:量子化器はテキストと画像のモダリティを適切に整列できず,上流ネットワークが整列した場合でも特徴的不整合を生じさせる。
これらの課題に対処するために、Deep Contextual Interest Mining(DCIM)、Cross-Modal Semantic Alignment(CMSA)、Quality-Aware Reinforcement Mechanism(QARM)という3つの重要なイノベーションを統合する新しいフレームワークを提案する。
まず、視覚言語モデル(VLM)を用いて、非テキストのモダリティを統一的なテキストベースの意味空間に整列させ、モダリティの歪みを緩和する。
第2に、広告コンテキストに暗黙的に存在する高レベルな意味情報をキャプチャするディープ・インフォメーション・マイニング機構を導入し、再構成に基づく監視を通じて、SIDに重要な文脈情報を保存するよう促す。
第3に、後段の低品質なものを抑えつつ、意味的に豊かなSIDを促進するために、品質に配慮した報酬を伴う強化学習フレームワークを用いる。
大規模な実験により,本手法は最先端のSID生成手法を一貫して上回り,複数のベンチマークにおいて優れた性能を発揮することが示された。
アブレーション研究は、各提案した成分の有効性をさらに検証する。
関連論文リスト
- CARD: Non-Uniform Quantization of Visual Semantic Unit for Generative Recommendation [16.01204624133875]
我々はCARDと呼ばれる新しい生成レコメンデーションフレームワークを提案する。
CARDは、テキスト、視覚、協調的な信号をエンコーディングの前に構造化された視覚表現に統一する視覚意味ユニットを導入している。
我々は、学習可能で可逆な非一様変換を量子化プロセスに組み込んだ非一様量子化フレームワークを開発し、歪んだ意味分布をよりバランスの取れた潜在空間にマッピングする。
論文 参考訳(メタデータ) (2026-04-29T08:38:14Z) - OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:41:36Z) - End-to-End Semantic ID Generation for Generative Advertisement Recommendation [33.453121305193434]
生成広告推薦のための統一SID生成フレームワークを提案する。
具体的には、生の広告データからエンドツーエンドで埋め込みとSIDを協調的に最適化する。
実験により、UniSIDは最先端のSID生成方法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2026-02-11T02:38:26Z) - OMG-Agent: Toward Robust Missing Modality Generation with Decoupled Coarse-to-Fine Agentic Workflows [9.617220633655716]
textbfunderlineOmni-textbfunderlineModality textbfunderlineGeneration Agent (textbfOMG-Agent)について述べる。
論文 参考訳(メタデータ) (2026-02-04T02:25:40Z) - PRISM: Purified Representation and Integrated Semantic Modeling for Generative Sequential Recommendation [28.629759086187352]
本稿では,PRISMとPureified RepresentationとIntegrated Semantic Modelingを組み合わせた新しい生成レコメンデーションフレームワークを提案する。
PRISMは4つの実世界のデータセットで、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2026-01-23T08:50:16Z) - Beyond Confidence: Adaptive and Coherent Decoding for Diffusion Language Models [64.92045568376705]
コヒーレントコンテキストデコーディング(Coherent Contextual Decoding, CCD)は、2つのコアイノベーションに基づいて構築された新しい推論フレームワークである。
CCDは、歴史的文脈を活用してシーケンスコヒーレンスを高める軌道修正機構を採用している。
拡散ステップに基づく厳密なアロケーションの代わりに,各ステップのアンマスク予算を動的に調整する適応型サンプリング戦略を導入する。
論文 参考訳(メタデータ) (2025-11-26T09:49:48Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - NAP-Tuning: Neural Augmented Prompt Tuning for Adversarially Robust Vision-Language Models [72.58372335140241]
AdvPT(Adversarial Prompt Tuning)は、視覚言語モデル(VLM)における対向的ロバスト性を高めるための学習可能なテキストプロンプトを導入した。
マルチモーダル適応型プロンプトチューニング(NAP-Tuning)のためのニューラルネットワークフレームワークを提案する。
我々のアプローチは、挑戦的なAutoAttackベンチマークの下で最強のベースラインよりも大幅に改善され、ViT-B16では33.5%、ViT-B32アーキテクチャでは33.0%を上回りました。
論文 参考訳(メタデータ) (2025-06-15T03:34:23Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。