論文の概要: Hi-SAM: A Hierarchical Structure-Aware Multi-modal Framework for Large-Scale Recommendation
- arxiv url: http://arxiv.org/abs/2602.11799v1
- Date: Thu, 12 Feb 2026 10:26:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.768837
- Title: Hi-SAM: A Hierarchical Structure-Aware Multi-modal Framework for Large-Scale Recommendation
- Title(参考訳): Hi-SAM: 大規模レコメンデーションのための階層構造を考慮したマルチモーダルフレームワーク
- Authors: Pingjun Pan, Tingting Zhou, Peiyao Lu, Tingting Fei, Hongxiang Chen, Chuanjiang Luo,
- Abstract要約: Hi-SAMは階層構造対応のマルチモーダルフレームワークで、2つの設計がある。
幾何学的アライメントによってモダリティを統一し、粗大な戦略によってそれらを定量化する。
大規模なソーシャルプラットフォーム上に展開されたHi-SAMは、コアオンラインメトリックの6.55%を達成している。
- 参考スコア(独自算出の注目度): 1.0839192829439435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal recommendation has gained traction as items possess rich attributes like text and images. Semantic ID-based approaches effectively discretize this information into compact tokens. However, two challenges persist: (1) Suboptimal Tokenization: existing methods (e.g., RQ-VAE) lack disentanglement between shared cross-modal semantics and modality-specific details, causing redundancy or collapse; (2) Architecture-Data Mismatch: vanilla Transformers treat semantic IDs as flat streams, ignoring the hierarchy of user interactions, items, and tokens. Expanding items into multiple tokens amplifies length and noise, biasing attention toward local details over holistic semantics. We propose Hi-SAM, a Hierarchical Structure-Aware Multi-modal framework with two designs: (1) Disentangled Semantic Tokenizer (DST): unifies modalities via geometry-aware alignment and quantizes them via a coarse-to-fine strategy. Shared codebooks distill consensus while modality-specific ones recover nuances from residuals, enforced by mutual information minimization; (2) Hierarchical Memory-Anchor Transformer (HMAT): splits positional encoding into inter- and intra-item subspaces via Hierarchical RoPE to restore hierarchy. It inserts Anchor Tokens to condense items into compact memory, retaining details for the current item while accessing history only through compressed summaries. Experiments on real-world datasets show consistent improvements over SOTA baselines, especially in cold-start scenarios. Deployed on a large-scale social platform serving millions of users, Hi-SAM achieved a 6.55% gain in the core online metric.
- Abstract(参考訳): マルチモーダルなレコメンデーションは、アイテムがテキストや画像のようなリッチな属性を持っているため、注目を集めている。
意味的IDに基づくアプローチは、この情報をコンパクトトークンに効果的に識別する。
しかし,(1)準最適トークン化:既存のメソッド(例えば,RQ-VAE)には,共有の相互意味論とモダリティ固有の詳細が絡み合っていないこと,(2)アーキテクチャミスマッチ:バニラトランスフォーマーは,ユーザインタラクションやアイテム,トークンの階層を無視して,セマンティックIDをフラットストリームとして扱う。
アイテムを複数のトークンに拡大することは長さとノイズを増幅し、全体論的な意味論よりも局所的な詳細に注意を向ける。
階層構造を考慮した階層型マルチモーダルフレームワークであるHi-SAMを提案する。(1)DST(Disentangled Semantic Tokenizer)は,幾何学的アライメントによってモダリティを統一し,粗大な戦略によって量子化する。
共有コードブックは、相互情報最小化によって強制される残差からニュアンスを回復する一方で、コンセンサスを蒸留し、(2)階層型メモリアンカー変換器(HMAT)は階層型 RoPE を介して位置エンコーディングを中間部分空間と中間部分空間に分割し、階層を復元する。
Anchor Tokensを挿入してアイテムをコンパクトメモリに格納し、圧縮されたサマリーを通してのみ履歴にアクセスしながら現在のアイテムの詳細を保持する。
実世界のデータセットの実験では、特にコールドスタートシナリオにおいて、SOTAベースラインよりも一貫した改善が見られた。
数百万のユーザを対象とする大規模ソーシャルプラットフォーム上に展開されたHi-SAMは、コアオンラインメトリックの6.55%を達成している。
関連論文リスト
- The Best of the Two Worlds: Harmonizing Semantic and Hash IDs for Sequential Recommendation [51.62815306481903]
我々は,SIDとHIDを調和させる新しいフレームワークであるtextbfnameを提案する。具体的には,HIDのユニークなコラボレーティブアイデンティティを保ちながら,SID内のマルチグラニュラーセマンティクスの両方をキャプチャ可能な,デュアルブランチモデリングアーキテクチャを考案する。
実世界の3つのデータセットの実験では、名前は、既存のベースラインを越えながら、頭と尾の両方の推奨品質のバランスをとる。
論文 参考訳(メタデータ) (2025-12-11T07:50:53Z) - FITRep: Attention-Guided Item Representation via MLLMs [8.026404756145485]
FITRep は,細粒度アイテムデデューズのための最初の注目誘導型ホワイトボックスアイテム表現フレームワークである。
Meituanの広告システム上に展開されたFITRepは、オンラインA/Bテストで+3.60%のCTRと+4.25%のCPMを達成し、効果と実世界への影響の両方を実証している。
論文 参考訳(メタデータ) (2025-11-26T13:38:19Z) - MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文 参考訳(メタデータ) (2025-11-13T15:12:17Z) - MMQ: Multimodal Mixture-of-Quantization Tokenization for Semantic ID Generation and User Behavioral Adaptation [16.81485354427923]
本稿では,新しいマルチモーダルトークンをトレーニングする2段階フレームワークであるMMQを提案する。
MMQは多モードのシナジー、特異性、行動適応を統一し、生成的検索と識別的ランキングタスクの両方にスケーラブルで汎用的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-08-21T06:15:49Z) - Integrating Extra Modality Helps Segmentor Find Camouflaged Objects Well [23.460400679372714]
MultiCOSは、セグメンテーション性能を改善するために、多様なデータモダリティを効果的に活用する新しいフレームワークである。
BFSerは、実データと擬似データの両方で既存のマルチモーダルベースラインを上回っている。
論文 参考訳(メタデータ) (2025-02-20T11:49:50Z) - Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - Preserving Modality Structure Improves Multi-Modal Learning [64.10085674834252]
大規模マルチモーダルデータセットによる自己教師付き学習は、人間のアノテーションに頼ることなく、意味的に意味のある埋め込みを学ぶことができる。
これらの手法は、モダリティ固有の埋め込みに存在する意味構造を無視して、ドメイン外のデータをうまく一般化するのに苦労することが多い。
共同埋め込み空間におけるモダリティ特異的な関係を保ち, 一般化性を向上させるためのセマンティック・構造保存整合性アプローチを提案する。
論文 参考訳(メタデータ) (2023-08-24T20:46:48Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - SWAT: Spatial Structure Within and Among Tokens [53.525469741515884]
我々は,トークン化時に空間構造が保存される場合,モデルが顕著な利得が得られることを論じる。
本研究では,(1)構造認識のトークン化と(2)構造認識のミキシングという2つの重要なコントリビューションを提案する。
論文 参考訳(メタデータ) (2021-11-26T18:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。