論文の概要: Exploiting ID-Text Complementarity via Ensembling for Sequential Recommendation
- arxiv url: http://arxiv.org/abs/2512.17820v1
- Date: Fri, 19 Dec 2025 17:24:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.514358
- Title: Exploiting ID-Text Complementarity via Ensembling for Sequential Recommendation
- Title(参考訳): 逐次レコメンデーションのための組立によるID-テキスト補間性の爆発
- Authors: Liam Collins, Bhuvesh Kumar, Clark Mingxuan Ju, Tong Zhao, Donald Loveland, Leonardo Neves, Neil Shah,
- Abstract要約: 逐次レコメンデーションモデルにおけるIDとモダリティの特徴の相補性について検討する。
独立モデルトレーニングによりIDのテクスチャ性を保存し,簡単なアンサンブル戦略により活用する新しいSR手法を提案する。
- 参考スコア(独自算出の注目度): 29.942561497927116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern Sequential Recommendation (SR) models commonly utilize modality features to represent items, motivated in large part by recent advancements in language and vision modeling. To do so, several works completely replace ID embeddings with modality embeddings, claiming that modality embeddings render ID embeddings unnecessary because they can match or even exceed ID embedding performance. On the other hand, many works jointly utilize ID and modality features, but posit that complex fusion strategies, such as multi-stage training and/or intricate alignment architectures, are necessary for this joint utilization. However, underlying both these lines of work is a lack of understanding of the complementarity of ID and modality features. In this work, we address this gap by studying the complementarity of ID- and text-based SR models. We show that these models do learn complementary signals, meaning that either should provide performance gain when used properly alongside the other. Motivated by this, we propose a new SR method that preserves ID-text complementarity through independent model training, then harnesses it through a simple ensembling strategy. Despite this method's simplicity, we show it outperforms several competitive SR baselines, implying that both ID and text features are necessary to achieve state-of-the-art SR performance but complex fusion architectures are not.
- Abstract(参考訳): 現代のシークエンシャルレコメンデーション(SR)モデルは、近年の言語と視覚モデリングの進歩によって大きな動機づけられた、アイテムを表現するためのモダリティの特徴を一般的に利用している。
そのために、いくつかの研究がID埋め込みを完全にモダリティ埋め込みに置き換え、モダリティ埋め込みがID埋め込みを不要にすると主張した。
一方,多段階学習や複雑なアライメントアーキテクチャといった複雑な融合戦略は,IDとモダリティを共同で活用する上で必要である。
しかし、これらの両方の研究の根底にあるのは、IDとモダリティの特徴の相補性についての理解の欠如である。
本研究では,IDモデルとテキストベースSRモデルの相補性を検討することで,このギャップに対処する。
これらのモデルが相補的なシグナルを学習していることが示される。
そこで本研究では,独立モデルトレーニングによりIDテキストの相補性を保存し,簡単なアンサンブル戦略により活用する新たなSR手法を提案する。
この手法の単純さにもかかわらず、いくつかの競合するSRベースラインよりも優れており、最先端のSR性能を実現するためにはIDとテキストの両方の機能が必要であるが、複雑な融合アーキテクチャは必要ではないことを示唆している。
関連論文リスト
- The Best of the Two Worlds: Harmonizing Semantic and Hash IDs for Sequential Recommendation [51.62815306481903]
我々は,SIDとHIDを調和させる新しいフレームワークであるtextbfnameを提案する。具体的には,HIDのユニークなコラボレーティブアイデンティティを保ちながら,SID内のマルチグラニュラーセマンティクスの両方をキャプチャ可能な,デュアルブランチモデリングアーキテクチャを考案する。
実世界の3つのデータセットの実験では、名前は、既存のベースラインを越えながら、頭と尾の両方の推奨品質のバランスをとる。
論文 参考訳(メタデータ) (2025-12-11T07:50:53Z) - Contextualized Multimodal Lifelong Person Re-Identification in Hybrid Clothing States [2.6399783378460158]
身元再確認(ReID)は、衣料品変更(CCReID)による現実世界の監視システムにいくつかの課題がある
既存の手法では、特定のアプリケーション向けにモデルを開発するか、CCReIDを独自のサブプロブレムとして扱うかのいずれかであった。
LReID-Hybridタスクは,連続的な環境で学習しながら,SCとCCの両方を達成するためのモデルを開発することを目的としている。
論文 参考訳(メタデータ) (2025-09-14T12:46:39Z) - SemCORE: A Semantic-Enhanced Generative Cross-Modal Retrieval Framework with MLLMs [70.79124435220695]
セマンティック強化型Cross-mOdal Retrievalフレームワーク(SemCORE)を提案する。
まず,自然言語の理解と生成に最適化された生成モデルとターゲット識別子を効果的に整合させる構造化自然言語識別器(SID)を構築した。
次に、粒度の細かいターゲット識別を可能にするジェネレーティブ・セマンティック・検証(GSV)戦略を導入する。
論文 参考訳(メタデータ) (2025-04-17T17:59:27Z) - ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文 参考訳(メタデータ) (2024-04-23T18:41:56Z) - Multi-Prompts Learning with Cross-Modal Alignment for Attribute-based
Person Re-Identification [18.01407937934588]
本稿では,素早い学習と言語モデルに基づくMP-ReID(Multi-Prompts ReID)という新しいフレームワークを提案する。
MP-ReIDは、クエリイメージを記述するために、多様で情報的、即応的な文を幻覚させることを学ぶ。
明示的なプロンプトは、ChatGPTやVQAモデルといった世代モデルをアンサンブルすることで得られる。
論文 参考訳(メタデータ) (2023-12-28T03:00:19Z) - VILLS -- Video-Image Learning to Learn Semantics for Person Re-Identification [51.89551385538251]
VILLS (Video-Image Learning to Learn Semantics) は画像やビデオから空間的特徴と時間的特徴を共同で学習する自己教師型手法である。
VILLSはまず、意味的一貫性と頑健な空間的特徴を適応的に抽出する局所意味抽出モジュールを設計する。
そして、VILLSは、一貫した特徴空間における画像とビデオのモダリティを表現するために、統合された特徴学習および適応モジュールを設計する。
論文 参考訳(メタデータ) (2023-11-27T19:30:30Z) - Semantic-aware Video Representation for Few-shot Action Recognition [1.6486717871944268]
本稿では,これらの問題に対処するシンプルなセマンティック・アウェア・フューショット・アクション認識(SAFSAR)モデルを提案する。
提案手法は,3次元特徴抽出器と効果的な特徴融合方式を併用し,分類のための単純なコサイン類似性により,より優れた性能が得られることを示す。
様々な条件下での5つの挑戦的な数発アクション認識ベンチマークの実験により、提案したSAFSARモデルが最先端の性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-11-10T18:13:24Z) - Self-Sufficient Framework for Continuous Sign Language Recognition [75.60327502570242]
この作業の目標は、継続的手話認識のための自己充足型のフレームワークを開発することです。
これには、理解のための手、顔、口などの複雑なマルチスケール機能、フレームレベルのアノテーションの欠如が含まれる。
ネットワークやアノテーションを必要とせずに手動と非手動の両方の機能を抽出するDivide and Focus Convolution (DFConv)を提案する。
DPLRは、基底真理グロスシーケンスラベルと予測シーケンスを組み合わせることにより、非スパイクフレームレベルの擬似ラベルを伝搬する。
論文 参考訳(メタデータ) (2023-03-21T11:42:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。