論文の概要: Judging a video by its bitstream cover
- arxiv url: http://arxiv.org/abs/2309.07361v1
- Date: Thu, 14 Sep 2023 00:34:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 16:39:30.957419
- Title: Judging a video by its bitstream cover
- Title(参考訳): ビットストリームカバーによるビデオの判定
- Authors: Yuxing Han, Yunan Ding, Jiangtao Wen, Chen Ye Gan
- Abstract要約: 動画をSportやMusic Videoといった別のカテゴリーに分類することは、マルチメディアの理解と検索に不可欠である。
従来の方法では、色、テクスチャ、動きといったピクセルレベルの特徴を抽出するためにビデオ圧縮が必要である。
本稿では,ビデオの圧縮後ビットストリームのみを解析して分類を行い,ビットストリームの必要性を解消する手法を提案する。
- 参考スコア(独自算出の注目度): 12.322783570127756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classifying videos into distinct categories, such as Sport and Music Video,
is crucial for multimedia understanding and retrieval, especially in an age
where an immense volume of video content is constantly being generated.
Traditional methods require video decompression to extract pixel-level features
like color, texture, and motion, thereby increasing computational and storage
demands. Moreover, these methods often suffer from performance degradation in
low-quality videos. We present a novel approach that examines only the
post-compression bitstream of a video to perform classification, eliminating
the need for bitstream. We validate our approach using a custom-built data set
comprising over 29,000 YouTube video clips, totaling 6,000 hours and spanning
11 distinct categories. Our preliminary evaluations indicate precision,
accuracy, and recall rates well over 80%. The algorithm operates approximately
15,000 times faster than real-time for 30fps videos, outperforming traditional
Dynamic Time Warping (DTW) algorithm by six orders of magnitude.
- Abstract(参考訳): スポーツやミュージックビデオなどの異なるカテゴリに分類することはマルチメディア理解や検索に不可欠であり、特に大量のビデオコンテンツが常に生成される時代において重要である。
従来の方法では、色、テクスチャ、動きなどのピクセルレベルの特徴を抽出するためにビデオデ圧縮が必要であり、それによって計算とストレージの要求が増大する。
さらに、これらの手法は低品質ビデオの性能劣化に悩まされることが多い。
本稿では,ビデオの圧縮後ビットストリームのみを解析して分類を行い,ビットストリームの必要性を解消する手法を提案する。
29,000以上のyoutubeビデオクリップ、合計6000時間、11のカテゴリからなるカスタム構築データセットを用いて、このアプローチを検証する。
予備評価の結果,精度,精度,リコール率は80%以上であった。
このアルゴリズムは30fpsビデオのリアルタイム処理よりも約15,000倍高速で動作し、従来のdynamic time warping(dtw)アルゴリズムを6桁上回っている。
関連論文リスト
- Whats in a Video: Factorized Autoregressive Decoding for Online Dense Video Captioning [71.94122309290537]
ビデオの高密度キャプションを生成するための,効率的なオンライン手法を提案する。
我々のモデルは、新しい自己回帰因子化復号化アーキテクチャを使用している。
提案手法は,オフライン手法とオンライン手法の両方と比較して優れた性能を示し,計算コストを20%削減する。
論文 参考訳(メタデータ) (2024-11-22T02:46:44Z) - Adaptive Caching for Faster Video Generation with Diffusion Transformers [52.73348147077075]
拡散変換器(DiT)はより大きなモデルと重い注意機構に依存しており、推論速度が遅くなる。
本稿では,Adaptive Caching(AdaCache)と呼ばれる,ビデオDiTの高速化のためのトレーニング不要手法を提案する。
また,AdaCache内で動画情報を利用するMoReg方式を導入し,動作内容に基づいて計算割り当てを制御する。
論文 参考訳(メタデータ) (2024-11-04T18:59:44Z) - Leveraging Compressed Frame Sizes For Ultra-Fast Video Classification [12.322783570127756]
動画をSportやMusic Videoといった別のカテゴリーに分類することは、マルチメディアの理解と検索に不可欠である。
従来の方法では、色、テクスチャ、動きといったピクセルレベルの特徴を抽出するためにビデオ圧縮が必要である。
本稿では,ビデオの圧縮後ビットストリームのみを解析して分類を行い,ビットストリーム復号化の必要性を解消する手法を提案する。
論文 参考訳(メタデータ) (2024-03-13T14:35:13Z) - Video Generation Beyond a Single Clip [76.5306434379088]
ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。
多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。
提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
論文 参考訳(メタデータ) (2023-04-15T06:17:30Z) - Compressed Vision for Efficient Video Understanding [83.97689018324732]
本稿では,2時間ビデオの処理が可能なハードウェアを用いて,時間長動画の研究を可能にするフレームワークを提案する。
私たちは、JPEGなどの標準的なビデオ圧縮をニューラル圧縮に置き換え、圧縮されたビデオを通常のビデオネットワークへの入力として直接フィードできることを示します。
論文 参考訳(メタデータ) (2022-10-06T15:35:49Z) - Speeding Up Action Recognition Using Dynamic Accumulation of Residuals
in Compressed Domain [2.062593640149623]
ビデオ処理アルゴリズムに関して、時間的冗長性と生ビデオの重大性は、最も一般的な2つの問題である。
本稿では,光部分復号処理によって得られる圧縮ビデオで直接利用できる残差データの利用法を提案する。
圧縮された領域に蓄積された残留物にのみニューラルネットワークを適用することで、性能が向上する一方、分類結果は生のビデオアプローチと非常に競合する。
論文 参考訳(メタデータ) (2022-09-29T13:08:49Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z) - Encode the Unseen: Predictive Video Hashing for Scalable Mid-Stream
Retrieval [12.17757623963458]
本稿では,コンピュータビジョンの新たな課題である中流動画検索に挑戦する。
本稿では、現在再生されているビデオの、目に見えない未来のコンテンツを推測する最初のハッシュフレームワークを提案する。
また本手法では,本手法の文献に適合したベースラインと比較して,mAP@20の性能が著しく向上する。
論文 参考訳(メタデータ) (2020-09-30T13:25:59Z) - Subjective and Objective Quality Assessment of High Frame Rate Videos [60.970191379802095]
高フレームレート(HFR)ビデオは、スポーツなどのライブ、高アクションのストリーミングコンテンツが驚くほど人気を博し、ますます一般的になっている。
ライブYT-HFRデータセットは、6つの異なるフレームレートを持つ480のビデオで構成され、16の多様なコンテンツから得られる。
ビデオの主観的ラベルを得るために,85人の被験者のプールから得られた品質評価を19,000件取得した。
論文 参考訳(メタデータ) (2020-07-22T19:11:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。