論文の概要: LinkedOut: Linking World Knowledge Representation Out of Video LLM for Next-Generation Video Recommendation
- arxiv url: http://arxiv.org/abs/2512.16891v1
- Date: Thu, 18 Dec 2025 18:52:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.232095
- Title: LinkedOut: Linking World Knowledge Representation Out of Video LLM for Next-Generation Video Recommendation
- Title(参考訳): LinkedOut:次世代ビデオレコメンデーションのためのビデオLLMから世界の知識表現をリンクする
- Authors: Haichao Zhang, Yao Lu, Lichen Wang, Yunzhe Li, Daiwei Chen, Yunpeng Xu, Yun Fu,
- Abstract要約: ビデオ大言語モデル(VLLM)は、インターネット規模のデータの事前学習を通じて、世界認知ビデオ理解を解放する。
本稿では,ビデオから直接VLLM世界の知識を抽出し,高速な推論を可能にするLinkedOutを提案する。
我々は、リッチなVLLM機能から適切な抽象化レベルを選択し、パーソナライズ、解釈可能、低レイテンシのレコメンデーションを可能にする層間知識融合MoEを導入する。
- 参考スコア(独自算出の注目度): 32.57236582010967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Large Language Models (VLLMs) unlock world-knowledge-aware video understanding through pretraining on internet-scale data and have already shown promise on tasks such as movie analysis and video question answering. However, deploying VLLMs for downstream tasks such as video recommendation remains challenging, since real systems require multi-video inputs, lightweight backbones, low-latency sequential inference, and rapid response. In practice, (1) decode-only generation yields high latency for sequential inference, (2) typical interfaces do not support multi-video inputs, and (3) constraining outputs to language discards fine-grained visual details that matter for downstream vision tasks. We argue that these limitations stem from the absence of a representation that preserves pixel-level detail while leveraging world knowledge. We present LinkedOut, a representation that extracts VLLM world knowledge directly from video to enable fast inference, supports multi-video histories, and removes the language bottleneck. LinkedOut extracts semantically grounded, knowledge-aware tokens from raw frames using VLLMs, guided by promptable queries and optional auxiliary modalities. We introduce a cross-layer knowledge fusion MoE that selects the appropriate level of abstraction from the rich VLLM features, enabling personalized, interpretable, and low-latency recommendation. To our knowledge, LinkedOut is the first VLLM-based video recommendation method that operates on raw frames without handcrafted labels, achieving state-of-the-art results on standard benchmarks. Interpretability studies and ablations confirm the benefits of layer diversity and layer-wise fusion, pointing to a practical path that fully leverages VLLM world-knowledge priors and visual reasoning for downstream vision tasks such as recommendation.
- Abstract(参考訳): ビデオ大言語モデル (VLLMs) は、インターネット規模のデータの事前学習を通じて、世界認知のビデオ理解を解き明かし、映画分析やビデオ質問応答といったタスクですでに約束されている。
しかし、実際のシステムはマルチビデオ入力、軽量バックボーン、低遅延シーケンシャル推論、迅速な応答を必要とするため、ビデオレコメンデーションのような下流タスクにVLLMをデプロイすることは依然として困難である。
実際に,(1)デコードのみの生成は逐次推論のレイテンシが高く,(2)典型的インタフェースはマルチビデオ入力をサポートしておらず,(3)言語への出力の制約は,下流の視覚タスクにおいて重要となる細粒度の視覚的詳細を破棄する。
これらの制限は、世界の知識を活用しながらピクセルレベルの詳細を保存する表現が存在しないことに起因すると我々は主張する。
高速な推論を可能にするためにビデオから直接VLLMの世界知識を抽出し、マルチビデオ履歴をサポートし、言語ボトルネックを除去するLinkedOutを提案する。
LinkedOutは、VLLMを使用して生フレームからセマンティックグラウンドで知識を意識したトークンを抽出し、プロンプト可能なクエリとオプションの補助モダリティによってガイドする。
我々は、豊富なVLLM機能から適切な抽象化レベルを選択し、パーソナライズ、解釈可能、低レイテンシのレコメンデーションを可能にする層間知識融合MoEを導入する。
われわれの知る限り、LinkedOutはVLLMベースの最初のビデオレコメンデーション手法であり、手作りのラベルを使わずに生のフレーム上で動作し、標準ベンチマークで最先端の結果を得る。
解釈可能性の研究と改善により、層多様性と層融合の利点が確認され、VLLMの世界知識を十分に活用する実践的な経路と、リコメンデーションのような下流視覚タスクに対する視覚的推論が指摘される。
関連論文リスト
- VidVec: Unlocking Video MLLM Embeddings for Video-Text Retrieval [11.519642157641023]
本稿では,ビデオテキストの埋め込みと検索にMLLMを活用することに焦点を当てる。
まず,中間層(事前学習)MLLM層がすでにタスク関連情報を有意にエンコードしていることを示す。
我々は,中間層埋め込みと校正MLLMヘッドを組み合わせることで,トレーニングなしで強力なゼロショット検索性能が得られることを示した。
論文 参考訳(メタデータ) (2026-02-08T19:39:32Z) - SiLVR: A Simple Language-based Video Reasoning Framework [71.77141065418238]
簡単な言語ベースのビデオ推論フレームワークであるSiLVRについて紹介する。
第一段階では、SiLVRは生動画を多感覚入力を用いて言語ベースの表現に変換する。
第2段階では、複雑なビデオ言語理解タスクを解決するために、言語記述を強力な理由付けLLMに入力する。
論文 参考訳(メタデータ) (2025-05-30T17:59:19Z) - LAVID: An Agentic LVLM Framework for Diffusion-Generated Video Detection [14.687867348598035]
大規模視覚言語モデル(LVLM)は、AI生成コンテンツ検出の新しいツールとなっている。
本稿では,LVLMを用いた新たなai生成ビデオ検出システムであるLAVIDを提案する。
提案するパイプラインは,検出のための明示的な知識ツールのセットを自動的に選択し,自己書換えによって構造を適応的に調整する。
論文 参考訳(メタデータ) (2025-02-20T19:34:58Z) - VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM [81.15525024145697]
ビデオ大言語モデル (Video Large Language Models, ビデオLLM) は近年, 一般的なビデオ理解において顕著な能力を示した。
しかし、それらは主に全体論的理解に焦点を当て、きめ細かい空間的・時間的詳細を捉えるのに苦労している。
我々は,高精細度空間時間映像理解のためのビデオLLMを実現するために,VideoRefer Suiteを導入した。
論文 参考訳(メタデータ) (2024-12-31T18:56:46Z) - Understanding Long Videos with Multimodal Language Models [44.78900245769057]
LLM(Large Language Models)は、長いビデオ理解ベンチマークにおいて優れたパフォーマンスを達成するために、最近のアプローチを可能にしている。
本研究では,LLMの広範な世界知識と強力な推論能力が,この強みにどのように影響するかを考察する。
得られたマルチモーダルビデオ理解フレームワークは、複数のビデオ理解ベンチマークで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-03-25T17:59:09Z) - Video Understanding with Large Language Models: A Survey [107.7736911322462]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。
Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。
本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文 参考訳(メタデータ) (2023-12-29T01:56:17Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - LAVENDER: Unifying Video-Language Understanding as Masked Language
Modeling [102.42424022921243]
Masked Language Modeling (MLM) は、すべての事前学習および下流タスクの共通インターフェースとして使用される。
実験により、この統合フレームワークは14のVidLベンチマークで競合性能を達成することが示された。
論文 参考訳(メタデータ) (2022-06-14T20:43:25Z) - LiVLR: A Lightweight Visual-Linguistic Reasoning Framework for Video
Question Answering [50.11756459499762]
軽量な視覚言語推論フレームワークLiVLRを提案する。
LiVLRは、まず、グラフベースの視覚と言語のアブリケーションを使用して、多義的な視覚と言語表現を得る。
提案したLiVLRは軽量で、2つのVideoQAベンチマークでパフォーマンス上の優位性を示す。
論文 参考訳(メタデータ) (2021-11-29T14:18:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。