論文の概要: Video Captioning in Compressed Video
- arxiv url: http://arxiv.org/abs/2101.00359v1
- Date: Sat, 2 Jan 2021 03:06:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 07:17:46.799357
- Title: Video Captioning in Compressed Video
- Title(参考訳): 圧縮ビデオにおけるビデオキャプション
- Authors: Mingjian Zhu, Chenrui Duan, Changbin Yu
- Abstract要約: 保存した圧縮映像を直接操作する映像キャプション手法を提案する。
ビデオキャプションの識別的視覚表現を学習するために,Iフレームに注目する領域を検出する残差支援エンコーダ (RAE) を設計する。
本手法を2つのベンチマークデータセットで評価し,本手法の有効性を示す。
- 参考スコア(独自算出の注目度): 1.953018353016675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing approaches in video captioning concentrate on exploring global frame
features in the uncompressed videos, while the free of charge and critical
saliency information already encoded in the compressed videos is generally
neglected. We propose a video captioning method which operates directly on the
stored compressed videos. To learn a discriminative visual representation for
video captioning, we design a residuals-assisted encoder (RAE), which spots
regions of interest in I-frames under the assistance of the residuals frames.
First, we obtain the spatial attention weights by extracting features of
residuals as the saliency value of each location in I-frame and design a
spatial attention module to refine the attention weights. We further propose a
temporal gate module to determine how much the attended features contribute to
the caption generation, which enables the model to resist the disturbance of
some noisy signals in the compressed videos. Finally, Long Short-Term Memory is
utilized to decode the visual representations into descriptions. We evaluate
our method on two benchmark datasets and demonstrate the effectiveness of our
approach.
- Abstract(参考訳): ビデオキャプションにおける既存のアプローチは、未圧縮ビデオにおけるグローバルフレーム機能の検討に集中しているが、圧縮ビデオで既にエンコードされている無償とクリティカルなサリエンシー情報は一般的に無視されている。
本稿では,保存された圧縮映像を直接操作する映像キャプション手法を提案する。
映像キャプションのための識別的視覚表現を学習するために,残像フレームの助けを借りてIフレームへの関心領域を検出する残像支援エンコーダ (RAE) を設計する。
まず,i-frameにおける各位置のサリエンシー値として残差の特徴を抽出し,注意重みを洗練するための空間注意モジュールを設計することにより,空間注意重みを求める。
さらに,圧縮ビデオにおけるノイズ信号の乱れを抑えるために,付随する特徴がキャプション生成にどの程度寄与するかを決定するための時間ゲートモジュールを提案する。
最後に、Long Short-Term Memoryを使用して視覚表現を記述にデコードする。
本手法を2つのベンチマークデータセットで評価し,本手法の有効性を示す。
関連論文リスト
- Whats in a Video: Factorized Autoregressive Decoding for Online Dense Video Captioning [71.94122309290537]
ビデオの高密度キャプションを生成するための,効率的なオンライン手法を提案する。
我々のモデルは、新しい自己回帰因子化復号化アーキテクチャを使用している。
提案手法は,オフライン手法とオンライン手法の両方と比較して優れた性能を示し,計算コストを20%削減する。
論文 参考訳(メタデータ) (2024-11-22T02:46:44Z) - Accurate and Fast Compressed Video Captioning [28.19362369787383]
既存のビデオキャプションアプローチでは、デコードされたビデオから最初にビデオフレームをサンプリングし、その後のプロセスを実行する必要がある。
圧縮領域の異なる視点からビデオキャプションについて検討し、既存のパイプラインに対してマルチフォールドの利点をもたらす。
本稿では,ビデオキャプションの圧縮領域において,ビデオキャプションの圧縮領域から学習可能な,シンプルで効果的なエンドツーエンド変換器を提案する。
論文 参考訳(メタデータ) (2023-09-22T13:43:22Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Visual Commonsense-aware Representation Network for Video Captioning [84.67432867555044]
ビデオキャプションのためのシンプルで効果的なVisual Commonsense-aware Representation Network (VCRN)を提案する。
提案手法は最先端の性能に到達し,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-11-17T11:27:15Z) - Weakly-Supervised Action Detection Guided by Audio Narration [50.4318060593995]
ナレーション管理から学習し,RGB,モーションフロー,環境音などのマルチモーダル特徴を利用するモデルを提案する。
実験の結果,ノイズの多い音声ナレーションは優れた行動検出モデルを学ぶのに十分であることがわかった。
論文 参考訳(メタデータ) (2022-05-12T06:33:24Z) - Video Demoireing with Relation-Based Temporal Consistency [68.20281109859998]
カラー歪みのように見えるモアレパターンは、デジタルカメラでスクリーンを撮影する際に、画像と映像の画質を著しく劣化させる。
我々は、このような望ましくないモアレパターンをビデオで除去する方法を研究している。
論文 参考訳(メタデータ) (2022-04-06T17:45:38Z) - SwinBERT: End-to-End Transformers with Sparse Attention for Video
Captioning [40.556222166309524]
ビデオキャプションのためのエンドツーエンドトランスフォーマーモデルであるSwinBERTを提案する。
提案手法では,ビデオ入力の可変長に適応可能な空間時間表現を符号化するために,ビデオトランスフォーマを採用している。
このモデルアーキテクチャに基づいて,より密集したビデオフレームの映像キャプションが有用であることを示す。
論文 参考訳(メタデータ) (2021-11-25T18:02:12Z) - Video Imprint [107.1365846180187]
複雑なイベント検索,認識,記録のための統合ビデオ分析フレームワーク(ER3)が提案されている。
提案したビデオインプリント表現は、ビデオフレーム間の画像特徴間の時間的相関を利用する。
ビデオインプリントは、それぞれ、イベント認識/記録およびイベント検索タスクのために、推論ネットワークと特徴集約モジュールに入力される。
論文 参考訳(メタデータ) (2021-06-07T00:32:47Z) - End-to-End Learning for Video Frame Compression with Self-Attention [25.23586503813838]
ビデオフレームを圧縮するエンド・ツー・エンドの学習システムを提案する。
我々のシステムはフレームの深い埋め込みを学習し、その差分を潜時空間でエンコードする。
実験の結果,提案システムは高い圧縮率と高客観的な視覚的品質を実現することがわかった。
論文 参考訳(メタデータ) (2020-04-20T12:11:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。