論文の概要: EdgeVidSum: Real-Time Personalized Video Summarization at the Edge
- arxiv url: http://arxiv.org/abs/2506.03171v1
- Date: Wed, 28 May 2025 18:59:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:13.901649
- Title: EdgeVidSum: Real-Time Personalized Video Summarization at the Edge
- Title(参考訳): EdgeVidSum: リアルタイムのパーソナライズされたビデオ要約
- Authors: Ghulam Mujtaba, Eun-Seok Ryu,
- Abstract要約: EdgeVidSumは、エッジデバイス上で、ロングフォームビデオのパーソナライズされた高速な要約を生成する方法である。
このフレームワークは階層的な分析手法を用いており、軽量な2D CNNモデルによりサムネイルからユーザの好むコンテンツを識別する。
インタラクティブなデモでは、個々のユーザの好みに基づいて、映画、スポーツイベント、テレビ番組などのロングフォームビデオ用に調整されたビデオ要約を作成する能力を強調しています。
- 参考スコア(独自算出の注目度): 3.102586911584193
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: EdgeVidSum is a lightweight method that generates personalized, fast-forward summaries of long-form videos directly on edge devices. The proposed approach enables real-time video summarization while safeguarding user privacy through local data processing using innovative thumbnail-based techniques and efficient neural architectures. Unlike conventional methods that process entire videos frame by frame, the proposed method uses thumbnail containers to significantly reduce computational complexity without sacrificing semantic relevance. The framework employs a hierarchical analysis approach, where a lightweight 2D CNN model identifies user-preferred content from thumbnails and generates timestamps to create fast-forward summaries. Our interactive demo highlights the system's ability to create tailored video summaries for long-form videos, such as movies, sports events, and TV shows, based on individual user preferences. The entire computation occurs seamlessly on resource-constrained devices like Jetson Nano, demonstrating how EdgeVidSum addresses the critical challenges of computational efficiency, personalization, and privacy in modern video consumption environments.
- Abstract(参考訳): EdgeVidSumは、エッジデバイス上で、ロングフォームビデオのパーソナライズされた高速な要約を生成する軽量な方法である。
提案手法は,イノベーティブなサムネイルベース技術と効率的なニューラルアーキテクチャを用いたローカルデータ処理により,ユーザのプライバシを保護しながら,リアルタイムな映像要約を実現する。
フレーム単位でビデオ全体を処理する従来の方法とは異なり,提案手法ではサムネイルコンテナを用いて意味的関連性を犠牲にすることなく,計算複雑性を大幅に低減する。
このフレームワークは階層的な分析手法を採用しており、軽量な2D CNNモデルによりサムネイルからユーザの優先したコンテンツを識別し、タイムスタンプを生成して高速なフォワード要約を生成する。
インタラクティブなデモでは、個々のユーザの好みに基づいて、映画、スポーツイベント、テレビ番組などのロングフォームビデオ用に調整されたビデオ要約を作成する能力を強調しています。
計算全体はJetson Nanoのようなリソース制約のあるデバイス上でシームレスに行われ、現代のビデオ消費環境における計算効率、パーソナライゼーション、プライバシといった重要な課題にEdgeVidSumがどう対処するかを実証する。
関連論文リスト
- FiLA-Video: Spatio-Temporal Compression for Fine-Grained Long Video Understanding [17.71123451197036]
ビデオデータの複雑さとコンテキスト処理の制限は、長いビデオの理解を妨げる。
本稿では,複数のフレームを単一の表現に統合する新しいフレームワークであるFiLA-Videoを提案する。
FiLA-Videoは、従来の方法に比べて、長時間ビデオ理解において優れた効率と精度を実現している。
論文 参考訳(メタデータ) (2025-04-29T03:09:46Z) - CSTA: CNN-based Spatiotemporal Attention for Video Summarization [0.24578723416255752]
本稿では,CNN をベースとした SpatioTemporal Attention (CSTA) 手法を提案する。
提案手法は,CNNによるフレーム内およびフレーム内関係の理解と,画像内の絶対位置を学習する能力を活用して,映像中の重要な属性を見つけることに依存する。
論文 参考訳(メタデータ) (2024-05-20T09:38:37Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [57.758863967770594]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Revisiting Kernel Temporal Segmentation as an Adaptive Tokenizer for
Long-form Video Understanding [57.917616284917756]
実世界のビデオは、しばしば数分間の長さであり、意味的に一貫した長さのセグメントがある。
長いビデオを処理するための一般的なアプローチは、一定時間の長さの一様にサンプリングされたクリップにショートフォームビデオモデルを適用することである。
このアプローチは、固定長のクリップがしばしば冗長または非形式的であるため、長いビデオの基本的な性質を無視する。
論文 参考訳(メタデータ) (2023-09-20T18:13:32Z) - LTC-SUM: Lightweight Client-driven Personalized Video Summarization
Framework Using 2D CNN [5.95248889179516]
本稿では,フル長ビデオのための軽量サムネイルコンテナベース要約(LTC-SUM)フレームワークを提案する。
エンドユーザー装置の計算資源を用いて、同時ユーザ向けにパーソナライズされたキーショット要約を生成する。
論文 参考訳(メタデータ) (2022-01-22T13:54:13Z) - A Sparse Sampling-based framework for Semantic Fast-Forward of
First-Person Videos [2.362412515574206]
ほとんどのアップロードされたビデオは忘れられ、コンピューターのフォルダーやウェブサイトに埋もれてしまった。
重み付き最小再構成問題として定式化された適応フレーム選択を提案する。
本手法は,最先端技術と同等の関連情報とスムーズさを保持することができるが,処理時間が少ない。
論文 参考訳(メタデータ) (2020-09-21T18:36:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。