論文の概要: Seeing Further and Wider: Joint Spatio-Temporal Enlargement for Micro-Video Popularity Prediction
- arxiv url: http://arxiv.org/abs/2604.20311v2
- Date: Thu, 23 Apr 2026 11:17:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.047834
- Title: Seeing Further and Wider: Joint Spatio-Temporal Enlargement for Micro-Video Popularity Prediction
- Title(参考訳): 近視・広視:マイクロビデオ人気予測のための同時時空間拡大
- Authors: Dali Wang, Yunyao Zhang, Junqing Yu, Yi-Ping Phoebe Chen, Chen Xu, Zikai Song,
- Abstract要約: マイクロビデオの人気予測(MVPP)は、オンラインメディア上でのビデオの人気を予測することを目的としている。
MVPPアプローチでは、あるビデオ(時間)の時間的ダイナミクスと、他のビデオ(空間)に対する歴史的関連性の両方を理解することが重要である。
- 参考スコア(独自算出の注目度): 24.227528430107114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Micro-video popularity prediction (MVPP) aims to forecast the future popularity of videos on online media, which is essential for applications such as content recommendation and traffic allocation. In real-world scenarios, it is critical for MVPP approaches to understand both the temporal dynamics of a given video (temporal) and its historical relevance to other videos (spatial). However, existing approaches sufer from limitations in both dimensions: temporally, they rely on sparse short-range sampling that restricts content perception; spatially, they depend on flat retrieval memory with limited capacity and low efficiency, hindering scalable knowledge utilization. To overcome these limitations, we propose a unified framework that achieves joint spatio-temporal enlargement, enabling precise perception of extremely long video sequences while supporting a scalable memory bank that can infinitely expand to incorporate all relevant historical videos. Technically, we employ a Temporal Enlargement driven by a frame scoring module that extracts highlight cues from video frames through two complementary pathways: sparse sampling and dense perception. Their outputs are adaptively fused to enable robust long-sequence content understanding. For Spatial Enlargement, we construct a Topology-Aware Memory Bank that hierarchically clusters historically relevant content based on topological relationships. Instead of directly expanding memory capacity, we update the encoder features of the corresponding clusters when incorporating new videos, enabling unbounded historical association without unbounded storage growth. Extensive experiments on three widely used MVPP benchmarks demonstrate that our method consistently outperforms 11 strong baselines across mainstream metrics, achieving robust improvements in both prediction accuracy and ranking consistency.
- Abstract(参考訳): マイクロビデオの人気予測(MVPP)は、コンテンツレコメンデーションやトラフィックアロケーションといったアプリケーションに欠かせない、オンラインメディア上のビデオの今後の人気を予測することを目的としている。
現実世界のシナリオでは、MVPPアプローチが与えられたビデオ(時間)の時間的ダイナミクスと、他のビデオ(空間)に対する歴史的関連性の両方を理解することが重要である。
しかし、既存のアプローチは、両方の次元の制限から推測される: 時間的に、コンテンツ知覚を制限するスパース短距離サンプリングに依存し、空間的には、限られた容量と低い効率でフラットな検索メモリに依存し、スケーラブルな知識利用を妨げる。
これらの制限を克服するため,我々は,拡張可能な拡張可能な拡張性のあるメモリバンクをサポートしながら,非常に長いビデオシーケンスの正確な認識を可能にする,共同時空間拡大を実現する統一的なフレームワークを提案する。
技術的には、フレームスコアリングモジュールによって駆動されるテンポラルエンゲージメントを用いて、スパースサンプリングと密度知覚という2つの相補的な経路を通して、ビデオフレームからハイライトキューを抽出する。
それらの出力は適応的に融合され、堅牢なロングシーケンスコンテンツ理解を可能にする。
空間拡大のために、トポロジカルな関係に基づいて歴史的に関連するコンテンツを階層的にクラスタリングするトポロジカル・アウェア・メモリバンクを構築した。
メモリ容量を直接拡張する代わりに、新しいビデオを導入する際に対応するクラスタのエンコーダ機能を更新する。
広範に使用されている3つのMVPPベンチマークの大規模な実験により、我々の手法は主流のメトリクスにわたって11の強いベースラインを一貫して上回り、予測精度とランキング整合性の両方において堅牢な改善が達成された。
関連論文リスト
- VideoMem: Enhancing Ultra-Long Video Understanding via Adaptive Memory Management [17.645183933549458]
VideoMemは、適応メモリ管理によるシーケンシャルな生成タスクとして、長いビデオ理解をモデル化する新しいフレームワークである。
我々は,VMemが,超長期ビデオ理解タスクの様々なベンチマークにおいて,既存のオープンソースモデルを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2025-12-04T07:42:13Z) - WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning [66.24870234484668]
我々は,複数の相補的記憶から構築・取得する,新しいマルチモーダルメモリエージェント WorldMM を紹介する。
WorldMMは5つの長いビデオ質問回答ベンチマークで既存のベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-12-02T05:14:52Z) - Episodic Memory Representation for Long-form Video Understanding [52.33907540905242]
大きなビデオ言語モデルは、一般的なビデオ理解において優れているが、長い形式のコンテキストウィンドウの制限に苦労する。
人間の記憶の原理にインスパイアされたトレーニングフリーのフレームワークであるVideo-EMを紹介する。
Video-EMでは、各ベースラインに対して4-9%のパフォーマンス向上を実現し、フレームの削減を実現している。
論文 参考訳(メタデータ) (2025-08-13T04:33:07Z) - Infinite Video Understanding [50.78256932424239]
Infinite Video Understandingをブルースキー研究の目的とするフレーミングは、マルチメディアにとって重要な北の星となると我々は主張する。
我々は、この変革能力を達成するための主要な課題と研究の方向性を概説する。
論文 参考訳(メタデータ) (2025-07-11T23:07:04Z) - MambaMia: A State-Space-Model-Based Compression for Efficient Video Understanding in Large Multimodal Models [33.89483627891117]
大規模なマルチモーダルモデルに反映する前に、複数のビデオフレームの特徴を圧縮する効率的なフレームワークを提案する。
われわれのフレームワークは、リソースを意識した効率を重視し、現実世界のデプロイに実用的である。
論文 参考訳(メタデータ) (2025-06-16T14:49:49Z) - Exploiting Temporal State Space Sharing for Video Semantic Segmentation [53.8810901249897]
ビデオセマンティックセグメンテーション(VSS)はシーンの時間的進化を理解する上で重要な役割を担っている。
従来の手法では、ビデオはフレーム単位で、あるいは短い時間ウィンドウで分割されることが多く、時間的コンテキストや冗長な計算、重いメモリ要求に繋がる。
本研究では,時間的特徴共有にマンバ状態空間モデルを活用するための時間的ビデオ状態空間共有アーキテクチャを提案する。
本モデルでは,映像フレーム間の関連情報を効率的に伝播する選択的ゲーティング機構を特徴とし,メモリ量の多い機能プールの必要性を解消する。
論文 参考訳(メタデータ) (2025-03-26T01:47:42Z) - SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。