論文の概要: TriAlignGR: Triangular Multitask Alignment with Multimodal Deep Interest Mining for Generative Recommendation
- arxiv url: http://arxiv.org/abs/2605.05249v1
- Date: Tue, 05 May 2026 11:42:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.312514
- Title: TriAlignGR: Triangular Multitask Alignment with Multimodal Deep Interest Mining for Generative Recommendation
- Title(参考訳): TriAlignGR: 生成レコメンデーションのためのマルチモーダルディープ・マイニングによる三角形マルチタスクアライメント
- Authors: Yangchen Zeng, Hao Peng, Rongfeng Guo, Zhenyu Yu, Zhiyuan Hu, Jinze Wang,
- Abstract要約: TriAlignGRは2段階のマルチモーダル意味伝播を確立する。
視覚的セマンティクスをマルチモーダル埋め込みを通じて直接SIDにエンコードする。
モデルがこれらのセマンティクスを視覚的記述タスクでデコードすることを可能にする。
- 参考スコア(独自算出の注目度): 13.447497401246807
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce TriAlignGR, a unified multitask-multimodal framework for generative recommendation that establishes two-stage multimodal semantic propagation: (i) encoding visual semantics directly into SIDs via multimodal embeddings, and (ii) enabling the model to decode these semantics through visual description tasks. Existing Semantic ID (SID) pipelines suffer from two fundamental but underexplored problems: \textbf{SID Content Degradation (SCD)}, where cascaded encoding and residual quantization discard critical multimodal and interest-level semantics; and \textbf{SID Semantic Opacity (SSO)}, where models autoregressively generate SID sequences without truly comprehending their underlying meaning, leading to hallucination and poor generalization. Prior work addresses at most text-SID alignment, leaving visual semantics and latent user interests entirely unexploited. TriAlignGR resolves both problems through three tightly integrated components: (1)~\textbf{Cross-Modal Semantic Alignment (CMSA)} integrates visual content into SID construction through both VLM-generated textual descriptions and a multimodal embedding model that directly encodes image features alongside text, ensuring that SIDs inherently carry multimodal semantics; (2)~\textbf{Multimodal Deep Interest Mining (MDIM)} leverages LLM Chain-of-Thought reasoning to extract latent user intents (\eg ``productivity-focused lifestyle'' from noise-canceling headphones) beyond surface attributes, enriching SID semantics before discretization; and (3)~\textbf{Triangular Multitask (TMT)} jointly trains on eight complementary generation tasks under a single autoregressive loss -- including two novel visual-semantic tasks (VisDesc$\to$SID, VisDesc$\to$Title) that map VLM-generated image descriptions to SIDs and titles, completing the SID-Text-Image triangle -- without requiring task-specific towers or complex loss weighting.
- Abstract(参考訳): マルチタスク・マルチモーダル統合フレームワークTriAlignGRを導入し、2段階のマルチモーダル・セマンティック・プロポーザルを確立する。
一 マルチモーダル埋め込みにより直接SIDに視覚的意味論を符号化し、
(ii) 視覚的記述タスクを通じて、モデルがこれらのセマンティクスをデコードできるようにする。
既存のセマンティックID (SID) パイプラインは、2つの根本的な、未解決の問題に悩まされている: \textbf{SID Content Degradation (SCD) ; カスケードエンコーディングと過剰量子化が重要なマルチモーダルおよび関心レベルセマンティックセマンティクスを廃止する; および \textbf{SID Semantic Opacity (SSO) ; モデルが真にその基礎となる意味を理解せずに自動的にSIDシーケンスを生成する。
それまでの作業は、ほとんどのテキスト-SIDアライメントで行われ、視覚的セマンティクスと潜伏したユーザの関心は完全に明らかにされていない。
1~\textbf{Cross-Modal Semantic Alignment (CMSA)は、VLM生成したテキスト記述と、SIDが本質的にマルチモーダルなセマンティクス(MDIM)を担っていることを保証するマルチモーダルな埋め込みモデルを通じて、視覚コンテンツをSID構築に統合する。
関連論文リスト
- MTLSI-Net: A Linear Semantic Interaction Network for Parameter-Efficient Multi-Task Dense Prediction [50.992213877904305]
MTLSI-Netは、パラメータを減らした線形複雑度で包括的なクロスタスク相互作用をキャプチャする。
NYUDv2とPASCAL-Contextの実験はMTLSI-Netが最先端の性能を達成することを示した。
論文 参考訳(メタデータ) (2026-04-02T13:02:48Z) - Deep Interest Mining with Cross-Modal Alignment for SemanticID Generation in Generative Recommendation [0.0]
Generative Recommendation (GR)は、数兆規模のデータを学習可能な語彙列に圧縮するためにセマンティックID(SID)に依存している。
既存の方法には3つの限界がある。
本稿では,Deep Contextual Interest Mining(DCIM),Cross-Modal Semantic Alignment(CMSA),Quality-Aware Reinforcement Mechanism(QARM)の3つの重要なイノベーションを統合する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-03T13:36:22Z) - MMQ-v2: Align, Denoise, and Amplify: Adaptive Behavior Mining for Semantic IDs Learning in Recommendation [19.071559026849208]
セマンティックID学習のためのコンテンツと行動のモダリティから、適応的にアライズ、デノテーズ、増幅するための混合量子化フレームワークMMQ-v2を提案する。
ノイズから表現を遮蔽するための情報豊かさを意識した適応的行動コンテンツアライメントと、SIDに異なる重みを適用して臨界信号を増幅する動的行動ルータである。
論文 参考訳(メタデータ) (2025-10-29T15:27:23Z) - TFANet: Three-Stage Image-Text Feature Alignment Network for Robust Referring Image Segmentation [8.48847068018671]
本稿では,3段階画像テキスト特徴アライメントネットワークであるTFANetを提案する。
KPS(Knowledge Plus Stage)、KFS(Knowledge Fusion Stage)、KIS(Knowledge Intensification Stage)の3段階からなる階層的なフレームワークを通じて、マルチモーダルアライメントを強化する。
KPSでは,画像領域と言語記述の異なる粒度とのリッチで効率的なアライメントを確立する,MLAM(Multiscale Linear Cross-Attention Module)を設計する。
KFSはさらに、クロスモーダル・フィーチャー・スキャン・モジュール(CFSM)による機能アライメントを強化し、長距離依存関係のキャプチャにマルチモーダル選択的スキャンを適用した。
論文 参考訳(メタデータ) (2025-09-16T13:26:58Z) - IDEA: Inverted Text with Cooperative Deformable Aggregation for Multi-modal Object Re-Identification [60.38841251693781]
本稿では,ロバストなマルチモーダルオブジェクトReIDを生成する新しいフレームワークを提案する。
我々のフレームワークは、多モーダル情報と逆テキストからのセマンティックガイダンスを統合するために、Modal PrefixesとInverseNetを使用している。
3つのマルチモーダルオブジェクトReIDベンチマーク実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2025-03-13T13:00:31Z) - REF-VLM: Triplet-Based Referring Paradigm for Unified Visual Decoding [36.376220619032225]
REF-VLMは、様々な視覚的デコーディングタスクの統一的なトレーニングのためのエンドツーエンドフレームワークである。
1億以上のマルチモーダル対話サンプルを含む大規模マルチタスクデータセットを構築した。
REF-VLMは様々な標準ベンチマークで他のMLLMよりも優れている。
論文 参考訳(メタデータ) (2025-03-10T14:59:14Z) - Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting [49.87694319431288]
一般的なセグメンテーションモデルは、異なる画像ソースからの様々なオブジェクトを含む様々なタスクに対して、ますます好まれている。
画像とマスクのペアを合成することで外観と意味の知識を復元する包括的生成(CGR)フレームワークを提案する。
漸進的タスク(心身、基礎、前立腺のセグメンテーション)の実験は、同時出現と意味的忘れを緩和する上で、明らかな優位性を示している。
論文 参考訳(メタデータ) (2024-06-28T10:05:58Z) - Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - Language Models As Semantic Indexers [78.83425357657026]
本稿では,ジェネレーティブ言語モデルを用いてセマンティックIDを学習するための自己教師型フレームワークLMIndexerを紹介する。
学習したIDの質を検証し,推奨,製品検索,文書検索の3つの課題において有効性を示す。
論文 参考訳(メタデータ) (2023-10-11T18:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。