Fugu-MT 論文翻訳(概要): A Remarkably Efficient Paradigm to Multimodal Large Language Models for Sequential Recommendation

論文の概要: A Remarkably Efficient Paradigm to Multimodal Large Language Models for Sequential Recommendation

arxiv url: http://arxiv.org/abs/2511.05885v2
Date: Wed, 12 Nov 2025 01:32:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-12 16:10:52.856374
Title: A Remarkably Efficient Paradigm to Multimodal Large Language Models for Sequential Recommendation
Title（参考訳）: シークエンシャルレコメンデーションのための多モーダル大言語モデルに対する顕著なパラダイム
Authors: Qiyong Zhong, Jiajie Su, Ming Yang, Yunshan Ma, Xiaolin Zheng, Chaochao Chen,
Abstract要約: 時系列レコメンデーション(SR)は、ユーザの過去の行動に基づいて、ユーザの将来のインタラクションを予測する。我々は3つの重要な革新を特徴とするSRのための効率的なMLLMベースのパラダイムであるSpeederを提案する。 Speederはトレーニング速度をオリジナルの250%に引き上げ、推論時間をAmazonデータセットで25%に削減する。
参考スコア（独自算出の注目度）: 33.469423146286296
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Sequential recommendations (SR) predict users' future interactions based on their historical behavior. The rise of Large Language Models (LLMs) has brought powerful generative and reasoning capabilities, significantly enhancing SR performance, while Multimodal LLMs (MLLMs) further extend this by introducing data like images and interactive relationships. However, critical issues remain, i.e., (a) Suboptimal item representations caused by lengthy and redundant descriptions, leading to inefficiencies in both training and inference; (b) Modality-related cognitive bias, as LLMs are predominantly pretrained on textual data, limiting their ability to effectively integrate and utilize non-textual modalities; (c) Weakening sequential perception in long interaction sequences, where attention mechanisms struggle to capture earlier interactions, hindering the modeling of long-range dependencies. To address these issues, we propose Speeder, an efficient MLLM-based paradigm for SR featuring three key innovations: 1) Multimodal Representation Compression (MRC), which condenses item attributes into concise yet informative tokens, reducing redundancy and computational cost; 2) Modality-aware Progressive Optimization (MPO), enabling gradual learning of multimodal representations; 3) Sequential Position Awareness Enhancement (SPAE), improving the LLM's capability to capture both relative and absolute sequential dependencies in long interaction sequences. Extensive experiments on real-world datasets demonstrate the effectiveness and efficiency of Speeder. Speeder increases training speed to 250% of the original while reducing inference time to 25% on the Amazon dataset.
Abstract（参考訳）: 時系列レコメンデーション(SR)は、ユーザの過去の行動に基づいて、ユーザの将来のインタラクションを予測する。 LLM(Large Language Models)の台頭は、強力な生成能力と推論能力をもたらし、SR性能を大幅に向上させ、Multimodal LLM(MLLM)は画像や対話的関係などのデータを導入してこれをさらに拡張した。しかし、重大な問題は残されている。イ長大かつ冗長な説明による最適下品表現で、訓練及び推論の双方において非効率となること。 b) モダリティに関する認知バイアスは、LLMが主にテキストデータに基づいて事前訓練されており、非テキストモダリティを効果的に統合し活用する能力を制限するためである。注意機構が先行相互作用を捉えるのに苦労し、長距離依存のモデリングを妨げている。これらの問題に対処するために,我々は,3つの重要なイノベーションを特徴とする,SRのための効率的なMLLMベースのパラダイムであるSpeederを提案する。 1) 商品属性を簡潔にかつ情報的なトークンに縮合し、冗長性と計算コストを低減させるマルチモーダル表現圧縮(MRC) 2)マルチモーダル表現の段階的学習を可能にするモダリティ対応プログレッシブ最適化(MPO) 3)SPAE(Sequential Position Awareness Enhancement)により,LLMの長期相互作用シーケンスにおける相対的および絶対的相互依存を捕捉する能力が改善された。実世界のデータセットに関する大規模な実験は、Speederの有効性と効率を実証している。 Speederはトレーニング速度をオリジナルの250%に引き上げ、推論時間をAmazonデータセットで25%に削減する。

関連論文リスト

Reconstructing Content via Collaborative Attention to Improve Multimodal Embedding Quality [59.651410243721045]
CoCoAは、マルチモーダル埋め込み最適化のための協調注意に基づくコンテンツ再構成事前学習パラダイムである。 EOSをベースとした再構築タスクを導入し、対応するEOS>埋め込みからの入力を再構成するようモデルに促す。 MMEB-V1の実験では、Qwen2-VLとQwen2.5-VLをベースにしたCoCoAが埋め込み品質を著しく向上することを示した。
論文参考訳（メタデータ） (2026-03-02T05:34:45Z)
CREM: Compression-Driven Representation Enhancement for Multimodal Retrieval and Comprehension [49.6969505536365]
生成能力を保ちつつ、検索のためのマルチモーダル表現を強化する統一的なフレームワークであるCREMを提案する。 CREMはMMEB上での最先端検索性能を達成し,複数の理解ベンチマーク上での強力な生成性能を維持する。
論文参考訳（メタデータ） (2026-02-22T08:09:51Z)
DMESR: Dual-view MLLM-based Enhancing Framework for Multimodal Sequential Recommendation [13.114773060703891]
マルチモーダルシーケンスレコメンデーション(DMESR)のためのデュアルビューMLLMベースのエンハンシングフレームワークを提案する。ここでは,MLLM が生成する言語間の意味表現の整合に,コントラスト学習機構を用いる。細粒度セマンティクスを欠くために,MLLMから得られた粗粒度セマンティクスと細粒度テキストセマンティクスを統合したクロスアテンション融合モジュールを導入する。
論文参考訳（メタデータ） (2026-02-14T10:42:56Z)
Cross-Modal Attention Network with Dual Graph Learning in Multimodal Recommendation [12.802844514133255]
二重グラフ埋め込み(CRANE)を用いたクロスモーダル再帰注意ネットワーク我々は,共同潜在空間における相互相関に基づくモダリティ特徴を反復的に洗練するコア再帰的クロスモーダルアテンション(RCA)機構を設計する。対称型マルチモーダル学習では,対話した項目の特徴を集約することで,ユーザのマルチモーダルプロファイルを明示的に構築する。
論文参考訳（メタデータ） (2026-01-16T10:09:39Z)
A Comprehensive Study on Visual Token Redundancy for Discrete Diffusion-based Multimodal Large Language Models [85.30893355216486]
我々は,異なるdMLLMアーキテクチャとタスクを用いて,視覚的トークン冗長性がどのように進化するかを検討する。本研究により, 視覚的冗長性は, 長時間のタスクを処理しながら, オフスクラッチdMLLMでのみ現れることが明らかとなった。層スキッピングはAR-to-diffusion dMLLMの加速に有効であるのに対し、プログレッシブプルーニングやレイトステッププルーニングはストクラッチdMLLMよりも効果的である。
論文参考訳（メタデータ） (2025-11-19T04:13:36Z)
Empowering Large Language Model for Sequential Recommendation via Multimodal Embeddings and Semantic IDs [28.752042722391934]
シークエンシャルレコメンデーション(SR)は,ユーザの動的関心や時系列パターンを過去のインタラクションに基づいて捉えることを目的としている。 MME-SIDは多モード埋め込みと量子埋め込みを統合し、埋め込み崩壊を緩和する。 3つの公開データセットに対する大規模な実験により、MME-SIDの優れた性能が検証された。
論文参考訳（メタデータ） (2025-09-02T07:02:29Z)
MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。 MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文参考訳（メタデータ） (2025-06-29T06:41:00Z)
Transferable Sequential Recommendation with Vanilla Cross-Entropy Loss [2.0048375809706274]
Sequential Recommendation (SR)システムでは、インタラクション履歴を分析してユーザの好みをモデル化する。現在の手法は、新しいドメインに適応する際にかなりの微調整コストを発生させる。 MMM4Recは、効率的な伝達学習のための専用代数的制約機構を組み込んだ、新しいマルチモーダルSRフレームワークである。
論文参考訳（メタデータ） (2025-06-03T14:18:19Z)
PRISM: Self-Pruning Intrinsic Selection Method for Training-Free Multimodal Data Selection [68.8373788348678]
ビジュアルインストラクションチューニングは、事前訓練されたマルチモーダル大言語モデルに人間の指示に従うように適応する。 PRISMは、効率的な視覚的命令選択のための最初のトレーニング不要のフレームワークである。データ選択とモデルチューニングのエンドツーエンドの時間を従来のパイプラインの30%に短縮する。
論文参考訳（メタデータ） (2025-02-17T18:43:41Z)
Hierarchical Time-Aware Mixture of Experts for Multi-Modal Sequential Recommendation [19.47124940518026]
マルチモーダルシーケンスレコメンデーション(HM4SR)の専門家の階層的時間認識混合を提案する。まず、Interactive MoEと名づけられたMoEは、各項目のマルチモーダルデータから本質的なユーザ関心関連情報を抽出する。テンポラルモエと呼ばれる第2のMoEは、モダリティ符号化においてタイムスタンプから明示的な時間的埋め込みを導入することで、ユーザの動的関心を捉える。
論文参考訳（メタデータ） (2025-01-24T06:26:50Z)
Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
我々は、MLLMのマルチモーダル推論能力を高めるために、選好最適化(PO)プロセスを導入する。具体的には、自動選好データ構築パイプラインを設計し、高品質で大規模なマルチモーダル推論選好データセットであるMMPRを作成する。マルチモーダルCoT性能を向上するMPO(Mixed Preference Optimization)と呼ばれるシンプルな手法を開発した。
論文参考訳（メタデータ） (2024-11-15T18:59:27Z)
RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文参考訳（メタデータ） (2024-10-18T03:45:19Z)
M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文参考訳（メタデータ） (2024-09-24T01:40:24Z)
STLLM-DF: A Spatial-Temporal Large Language Model with Diffusion for Enhanced Multi-Mode Traffic System Forecasting [32.943673568195315]
マルチタスク輸送予測を改善するため,時空間大言語モデル(STLLM-DF)を提案する。 DDPMの堅牢なdenoising機能により、ノイズの多い入力から基盤となるデータパターンを復元することができる。 STLLM-DFは既存のモデルより一貫して優れており,MAEでは平均2.40%,RMSEでは4.50%,MAPEでは1.51%の削減を実現している。
論文参考訳（メタデータ） (2024-09-08T15:29:27Z)
Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models [73.48675708831328]
MLLM(Multi-modal Large Language Models)のための新しいパラメータと計算効率のチューニング手法を提案する。 The Efficient Attention Skipping (EAS) method evaluate the attention redundancy and skips the less important MHAs to speed up inference。実験により、EASは高い性能とパラメータ効率を維持するだけでなく、推論速度を大幅に高速化することが示された。
論文参考訳（メタデータ） (2024-03-22T14:20:34Z)
When Parameter-efficient Tuning Meets General-purpose Vision-language Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-12-16T17:13:08Z)
SmartTrim: Adaptive Tokens and Attention Pruning for Efficient Vision-Language Models [35.5601603013045]
視覚言語モデル(VLM)のための適応加速度フレームワークであるSmartTrimを提案する。軽量なモジュールを元のバックボーンに統合し、各レイヤ内で冗長なトークン表現とアテンションヘッドを特定し、実行します。我々は,プレナードモデルの予測と完全容量との整合性を高めるための自己蒸留戦略を考案した。
論文参考訳（メタデータ） (2023-05-24T11:18:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。