論文の概要: HiVid: LLM-Guided Video Saliency For Content-Aware VOD And Live Streaming
- arxiv url: http://arxiv.org/abs/2602.14214v1
- Date: Sun, 15 Feb 2026 16:13:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:49.742691
- Title: HiVid: LLM-Guided Video Saliency For Content-Aware VOD And Live Streaming
- Title(参考訳): HiVid:コンテンツ対応VODとライブストリーミングのためのLLM対応ビデオ・サイレンシー
- Authors: Jiahui Chen, Bo Peng, Lianchen Jia, Zeyu Zhang, Tianchi Huang, Lifeng Sun,
- Abstract要約: HiVidは、VoD(Video-on-Demand)とライブストリーミングの両方で高忠実度重みを生成するために、Large Language Modelsを活用するフレームワークである。
我々は、HiVidがVODで最大11.5%、SOTAベースライン上でのライブストリーミングで最大26%の重量予測精度を向上させることを示した。
- 参考スコア(独自算出の注目度): 21.627116007248777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Content-aware streaming requires dynamic, chunk-level importance weights to optimize subjective quality of experience (QoE). However, direct human annotation is prohibitively expensive while vision-saliency models generalize poorly. We introduce HiVid, the first framework to leverage Large Language Models (LLMs) as a scalable human proxy to generate high-fidelity weights for both Video-on-Demand (VOD) and live streaming. We address 3 non-trivial challenges: (1) To extend LLMs' limited modality and circumvent token limits, we propose a perception module to assess frames in a local context window, autoregressively building a coherent understanding of the video. (2) For VOD with rating inconsistency across local windows, we propose a ranking module to perform global re-ranking with a novel LLM-guided merge-sort algorithm. (3) For live streaming which requires low-latency, online inference without future knowledge, we propose a prediction module to predict future weights with a multi-modal time series model, which comprises a content-aware attention and adaptive horizon to accommodate asynchronous LLM inference. Extensive experiments show HiVid improves weight prediction accuracy by up to 11.5\% for VOD and 26\% for live streaming over SOTA baselines. Real-world user study validates HiVid boosts streaming QoE correlation by 14.7\%.
- Abstract(参考訳): コンテンツ対応ストリーミングは、主観的品質のエクスペリエンス(QoE)を最適化するために、動的でチャンクレベルの重みを必要とする。
しかし、人間の直接アノテーションは違法に高価であり、視力・可視性モデルは一般化が不十分である。
ビデオ・オン・デマンド(VOD)とライブストリーミングの両方で高忠実度重みを生成するために,スケーラブルなヒューマンプロキシとして大規模言語モデル(LLM)を利用する最初のフレームワークであるHiVidを紹介する。
1) LLMの制限されたモダリティを拡張し、トークン制限を回避するために、ローカルコンテキストウィンドウ内のフレームを評価するための知覚モジュールを提案し、ビデオのコヒーレントな理解を自己回帰的に構築する。
2) ローカルウィンドウ間でのレーティングの不整合を有するVODに対して,新しいLLM誘導マージソートアルゴリズムを用いてグローバルなランク付けを行うためのランキングモジュールを提案する。
(3) 将来的な知識のない低レイテンシ,オンライン推論を必要とするライブストリーミングでは,マルチモーダル時系列モデルを用いて将来の重みを予測し,非同期LLM推論に対応するためのコンテンツ認識と適応的地平線を含む予測モジュールを提案する。
大規模な実験により、HiVidはVODでは11.5\%、SOTAベースライン上でのライブストリーミングでは26\%の重量予測精度が向上した。
HiVidはストリーミングQoE相関を14.7%向上させる。
関連論文リスト
- LiveStar: Live Streaming Assistant for Real-World Online Video Understanding [67.71551356747948]
LiveStarは、適応的なストリーミングデコーディングを通じて常時オンのプロアクティブ応答を実現する、先駆的なライブストリーミングアシスタントである。
LiveStar は,(1) 可変長ビデオストリームに対する漸進的なビデオ言語アライメントの実現,動的に進化するフレームシーケンス間の時間的一貫性の維持,(2) 単一前方通過検証による最適なプロアクティブ応答タイミングを決定する応答サイレンスデコードフレームワーク,(3) 最大端メモリ圧縮による10分以上のビデオのオンライン推論によるメモリ認識アクセラレーション,およびストリーミングキー値キャッシュを併用して1.53倍高速推論を実現する。
論文 参考訳(メタデータ) (2025-11-07T15:00:37Z) - UniVid: The Open-Source Unified Video Model [41.15980565061684]
MLLMと拡散デコーダを軽量アダプタで結合する統一アーキテクチャUniVidを提案する。
標準ベンチマークの実験では、最先端のパフォーマンスが示されている。
論文 参考訳(メタデータ) (2025-09-29T02:31:36Z) - Engagement Prediction of Short Videos with Large Multimodal Models [46.954597097369586]
ビデオエンゲージメント予測のための大規模マルチモーダルモデル(LMM)の可能性について実験的に検討する。
VideoLLaMA2はキービデオフレーム、テキストベースのメタデータ、バックグラウンドサウンドを処理し、Qwen2.5-VLはキービデオフレームとテキストベースのメタデータのみを使用する。
2種類のモデルをアンサンブルすることで,本手法はICCV VQualA 2025 EVQA-SnapUGC Challengeにおいて,短時間のビデオエンゲージメント予測において第一位となる。
論文 参考訳(メタデータ) (2025-08-04T15:21:29Z) - Time-R1: Post-Training Large Vision Language Model for Temporal Video Grounding [57.26400319795876]
時間的ビデオグラウンディング(TVG)は、長めのビデオ理解における中核的な課題である。
近年のLVLM(Large Vision-Language Models)は,教師付き微調整によるTVG処理の早期実現を示唆している。
強化学習によるLVLMの一般化能力を高める新しいポストトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-17T17:04:20Z) - Elevating Visual Perception in Multimodal LLMs with Visual Embedding Distillation [109.5893580175657]
近年,MLLMの開発における標準的な実践は,視覚エンコーダの機能をLLMに供給し,自然言語による指導を施すことである。
このアプローチは、しばしばモデルが言語理解に傾き、データに存在するリッチな視覚知覚信号を損なう。
本稿では,視覚知識をエキスパートビジョンエンコーダからLLMの隠れ表現に注入する最初のアプローチであるVisPer-LMを提案する。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - CONE: An Efficient COarse-to-fiNE Alignment Framework for Long Video
Temporal Grounding [70.7882058229772]
本稿では,長時間ビデオの時間的グラウンドリング(VTG)の新たな課題に取り組む。
短いビデオと比較すると、長いビデオは需要が高いが探索は少ない。
本研究では,効率的なCarse-to-fiNEアライメントフレームワークであるCONEを提案する。
論文 参考訳(メタデータ) (2022-09-22T10:58:42Z) - Understanding Road Layout from Videos as a Whole [82.30800791500869]
我々はこれをトップビューの道路属性予測問題として定式化し、その目的は各フレームの属性を正確かつ一貫して予測することである。
我々は、ビデオにおけるカメラモーションの活用と、長期ビデオ情報の導入という3つの新しい側面を生かした。
論文 参考訳(メタデータ) (2020-07-02T00:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。