論文の概要: Frozen LVLMs for Micro-Video Recommendation: A Systematic Study of Feature Extraction and Fusion
- arxiv url: http://arxiv.org/abs/2512.21863v1
- Date: Fri, 26 Dec 2025 04:56:28 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:51:41.431954
- Title: Frozen LVLMs for Micro-Video Recommendation: A Systematic Study of Feature Extraction and Fusion
- Title(参考訳): マイクロビデオレコメンデーションのための冷凍LVLM:特徴抽出と融合の系統的研究
- Authors: Huatuan Sun, Yunshan Ma, Changguang Wu, Yanxin Zhang, Pengfei Wang, Xiaoyu Du,
- Abstract要約: そこで本研究では,凍ったLVLMの多層表現とアイテムIDの埋め込みを適応的に融合する,軽量でプラグアンドプレイな手法を提案する。
DFFは、2つの実世界のマイクロビデオレコメンデーションベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 12.729411315533786
- License:
- Abstract: Frozen Large Video Language Models (LVLMs) are increasingly employed in micro-video recommendation due to their strong multimodal understanding. However, their integration lacks systematic empirical evaluation: practitioners typically deploy LVLMs as fixed black-box feature extractors without systematically comparing alternative representation strategies. To address this gap, we present the first systematic empirical study along two key design dimensions: (i) integration strategies with ID embeddings, specifically replacement versus fusion, and (ii) feature extraction paradigms, comparing LVLM-generated captions with intermediate decoder hidden states. Extensive experiments on representative LVLMs reveal three key principles: (1) intermediate hidden states consistently outperform caption-based representations, as natural-language summarization inevitably discards fine-grained visual semantics crucial for recommendation; (2) ID embeddings capture irreplaceable collaborative signals, rendering fusion strictly superior to replacement; and (3) the effectiveness of intermediate decoder features varies significantly across layers. Guided by these insights, we propose the Dual Feature Fusion (DFF) Framework, a lightweight and plug-and-play approach that adaptively fuses multi-layer representations from frozen LVLMs with item ID embeddings. DFF achieves state-of-the-art performance on two real-world micro-video recommendation benchmarks, consistently outperforming strong baselines and providing a principled approach to integrating off-the-shelf large vision-language models into micro-video recommender systems.
- Abstract(参考訳): 凍結型大規模ビデオ言語モデル (LVLM) は, マルチモーダル理解の強いマイクロビデオレコメンデーションにおいて, ますます採用されている。
しかし、それらの統合には体系的な経験的評価が欠けている: 実践者は一般的に、代替表現戦略を体系的に比較することなく、固定ブラックボックスの特徴抽出器としてLVLMをデプロイする。
このギャップに対処するために、我々は2つの重要な設計次元に沿って、最初の体系的な実証的研究を提示する。
(i)ID埋め込み、特に代替対融合の統合戦略、
(II)LVLM生成キャプションと中間デコーダ隠蔽状態を比較した特徴抽出パラダイム。
1) 自然言語の要約は必然的に推奨に欠かせないきめ細かな視覚的意味論を捨てる; (2) ID埋め込みは非置換不能な協調シグナルを捕捉する; 融合は置換よりも厳密に優れている; (3) 中間デコーダ機能の有効性は層によって大きく異なる。
これらの知見に導かれて,凍ったLVLMからアイテムIDを埋め込んだ多層表現を適応的に融合する,軽量かつプラグアンドプレイなアプローチであるDual Feature Fusion (DFF) Frameworkを提案する。
DFFは、2つの実世界のマイクロビデオレコメンデーションベンチマークにおける最先端のパフォーマンスを達成し、一貫して強力なベースラインを上回り、既製の大規模なビジョン言語モデルをマイクロビデオレコメンデーションシステムに統合するための原則化されたアプローチを提供する。
関連論文リスト
- Semore: VLM-guided Enhanced Semantic Motion Representations for Visual Reinforcement Learning [11.901989132359676]
視覚強化学習(RL)のための新しいVLMベースのフレームワークである強化セマンティックモーション表現(Semore)を導入する。
セモアはRGBフローからデュアルパスバックボーンを通じてセマンティックとモーションの表現を同時に抽出する。
本手法は, 最先端の手法と比較して, 効率的かつ適応的な能力を示す。
論文 参考訳(メタデータ) (2025-12-04T16:54:41Z) - Do Recommender Systems Really Leverage Multimodal Content? A Comprehensive Analysis on Multimodal Representations for Recommendation [9.37169920239321]
マルチモーダル・レコメンダ・システムは異種コンテンツの統合によるレコメンデーションの精度向上を目的としている。
効果はあるものの、それらの利得が真のマルチモーダル理解によるものなのか、あるいはモデルの複雑さの増加によるものなのかは定かではない。
本研究は,マルチモーダルな項目埋め込みの役割を考察し,表現の意味的情報性を強調した。
論文 参考訳(メタデータ) (2025-08-06T15:53:58Z) - Video Summarization with Large Language Models [41.51242348081083]
本稿では,近年のLarge Language Models (LLM) の機能を活用したビデオ要約フレームワークを提案する。
LLM-based Video Summarization (LLMVS) と呼ばれる我々の手法は、ビデオフレームをMulti-Modal Large Language Model (MLLM) を用いて一連のキャプションに変換する。
実験の結果,提案手法は標準ベンチマークにおける既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-15T13:56:14Z) - VideoLights: Feature Refinement and Cross-Task Alignment Transformer for Joint Video Highlight Detection and Moment Retrieval [8.908777234657046]
大規模言語モデルと視覚言語モデル(LLM/LVLM)は、様々な領域で広く普及している。
ここでは、(i)Convolutional ProjectionとFeature Refinementモジュールを通してこれらの制限に対処する新しいHD/MRフレームワークであるVideoLightsを提案する。
QVHighlights、TVSum、Charades-STAベンチマークに関する総合的な実験は、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-12-02T14:45:53Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。