論文の概要: PixRec: Leveraging Visual Context for Next-Item Prediction in Sequential Recommendation
- arxiv url: http://arxiv.org/abs/2601.06458v1
- Date: Sat, 10 Jan 2026 06:52:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.823951
- Title: PixRec: Leveraging Visual Context for Next-Item Prediction in Sequential Recommendation
- Title(参考訳): PixRec: シークエンシャルレコメンデーションにおける次項目予測のためのビジュアルコンテキストの活用
- Authors: Sayak Chakrabarty, Souradip Pal,
- Abstract要約: PixRecは、テキスト属性と製品イメージの両方をレコメンデーションパイプラインに組み込むビジョン言語フレームワークである。
本研究は,マルチモーダルリコメンデータトレーニングのスケールアップ,ビジュアルテキスト機能融合の強化,推論時間性能の評価について概説する。
- 参考スコア(独自算出の注目度): 3.437656066916039
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have recently shown strong potential for usage in sequential recommendation tasks through text-only models, which combine advanced prompt design, contrastive alignment, and fine-tuning on downstream domain-specific data. While effective, these approaches overlook the rich visual information present in many real-world recommendation scenarios, particularly in e-commerce. This paper proposes PixRec - a vision-language framework that incorporates both textual attributes and product images into the recommendation pipeline. Our architecture leverages a vision-language model backbone capable of jointly processing image-text sequences, maintaining a dual-tower structure and mixed training objective while aligning multi-modal feature projections for both item-item and user-item interactions. Using the Amazon Reviews dataset augmented with product images, our experiments demonstrate $3\times$ and 40% improvements in top-rank and top-10 rank accuracy over text-only recommenders respectively, indicating that visual features can help distinguish items with similar textual descriptions. Our work outlines future directions for scaling multi-modal recommenders training, enhancing visual-text feature fusion, and evaluating inference-time performance. This work takes a step toward building software systems utilizing visual information in sequential recommendation for real-world applications like e-commerce.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最近、先進的なプロンプト設計、コントラストアライメント、下流ドメイン固有のデータの微調整を組み合わせたテキストのみのモデルを通じて、シーケンシャルなレコメンデーションタスクでの使用可能性を示している。
効果はあるものの、これらのアプローチは多くの現実のレコメンデーションシナリオ、特にeコマースに存在する豊富な視覚情報を見落としている。
本稿では,テキスト属性と製品イメージの両方をレコメンデーションパイプラインに組み込んだ視覚言語フレームワークPixRecを提案する。
本アーキテクチャでは,画像-テキストシーケンスを協調処理し,マルチモーダルな特徴投影をアイテム-テムおよびユーザ-テムの両方のインタラクションに整合させながら,デュアルトウワー構造と混合学習目標を維持できる視覚言語モデルバックボーンを活用している。
プロダクトイメージを付加したAmazon Reviewsデータセットを使用して、私たちの実験では、テキストのみのレコメンデーションよりも上位ランクと上位10ランクの精度が3ドルと40%改善されていることを実証しています。
本研究は,マルチモーダルリコメンデータトレーニングのスケールアップ,ビジュアルテキスト機能融合の強化,推論時間性能の評価について概説する。
この研究は、電子商取引のような現実世界のアプリケーションのために、視覚情報を利用したソフトウェアシステムを構築するための一歩を踏み出した。
関連論文リスト
- Turning Adversaries into Allies: Reversing Typographic Attacks for Multimodal E-Commerce Product Retrieval [2.0134842677651084]
電子商取引プラットフォームのマルチモーダル製品検索システムは、検索関連性とユーザエクスペリエンスを改善するために、視覚信号とテキスト信号を効果的に組み合わせることに頼っている。
本稿では,関連するテキストコンテンツを製品イメージに直接レンダリングすることで,タイポグラフィー攻撃の論理を逆転させる手法を提案する。
6つの最先端ビジョン基盤モデルを用いて,3つの縦型eコマースデータセット(ニーカー,ハンドバッグ,トレーディングカード)について評価を行った。
論文 参考訳(メタデータ) (2025-11-07T15:24:18Z) - Autoregressive Pre-Training on Pixels and Texts [35.82610192457444]
文書画像とテキストの両方で事前学習された自己回帰フレームワークを用いて、視覚的・テキスト的両言語の二重モードについて検討する。
本手法はマルチモーダル・トレーニング・ストラテジーを用いて,次のパッチ予測による視覚データと,次のトークン予測による回帰ヘッドおよび/またはテキストデータを利用する。
視覚データのみを訓練した一方向画素モデルでは,複数の言語理解タスクにおける最先端の双方向モデルに匹敵する結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-04-16T16:36:50Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々はDraw-and-Understandフレームワークを提案し、視覚的プロンプト理解機能をMLLM(Multimodal Large Language Models)に統合する方法を探る。
視覚的なプロンプトにより、ユーザーはマルチモーダルなインストラクションを通じて対話することができ、モデルの対話性ときめ細かなイメージ理解を高めることができる。
本稿では,様々な学習済みMLLMに適応し,様々な視覚的プロンプトを認識可能な汎用アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - Efficient Large-Scale Visual Representation Learning And Evaluation [0.13192560874022083]
大規模なeコマースビジョンアプリケーションにおける課題を解説し、視覚表現を効果的に訓練し、評価し、提供する方法を強調する。
いくつかの下流タスクにおける視覚的表現を評価するアブレーション研究について述べる。
大規模なeコマースプラットフォーム上にデプロイされた機械学習システムの実運用におけるオンライン結果を含める。
論文 参考訳(メタデータ) (2023-05-22T18:25:03Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z) - Good Visual Guidance Makes A Better Extractor: Hierarchical Visual
Prefix for Multimodal Entity and Relation Extraction [88.6585431949086]
本稿では,視覚的な実体と関係抽出のための階層型ビジュアルプレフィックス融合NeTwork(HVPNeT)を提案する。
視覚的表現をプラグ可能な視覚的接頭辞とみなして, 誤りに敏感な予測決定のためのテキスト的表現を導出する。
3つのベンチマークデータセットの実験により,本手法の有効性が実証され,最先端の性能が得られた。
論文 参考訳(メタデータ) (2022-05-07T02:10:55Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Pre-training Graph Transformer with Multimodal Side Information for
Recommendation [82.4194024706817]
本稿では,項目側情報とその関連性を考慮した事前学習戦略を提案する。
我々はMCNSamplingという新しいサンプリングアルゴリズムを開発し、各項目のコンテキスト近傍を選択する。
The proposed Pre-trained Multimodal Graph Transformer (PMGT) learns item representations with two objectives: 1) graph structure reconstruction, 2) masked node feature reconstruction。
論文 参考訳(メタデータ) (2020-10-23T10:30:24Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。