論文の概要: Accurate and Fast Compressed Video Captioning
- arxiv url: http://arxiv.org/abs/2309.12867v2
- Date: Wed, 3 Jan 2024 08:29:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 16:46:40.501755
- Title: Accurate and Fast Compressed Video Captioning
- Title(参考訳): 高精度・高速圧縮ビデオキャプション
- Authors: Yaojie Shen, Xin Gu, Kai Xu, Heng Fan, Longyin Wen, Libo Zhang
- Abstract要約: 既存のビデオキャプションアプローチでは、デコードされたビデオから最初にビデオフレームをサンプリングし、その後のプロセスを実行する必要がある。
圧縮領域の異なる視点からビデオキャプションについて検討し、既存のパイプラインに対してマルチフォールドの利点をもたらす。
本稿では,ビデオキャプションの圧縮領域において,ビデオキャプションの圧縮領域から学習可能な,シンプルで効果的なエンドツーエンド変換器を提案する。
- 参考スコア(独自算出の注目度): 28.19362369787383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing video captioning approaches typically require to first sample video
frames from a decoded video and then conduct a subsequent process (e.g.,
feature extraction and/or captioning model learning). In this pipeline, manual
frame sampling may ignore key information in videos and thus degrade
performance. Additionally, redundant information in the sampled frames may
result in low efficiency in the inference of video captioning. Addressing this,
we study video captioning from a different perspective in compressed domain,
which brings multi-fold advantages over the existing pipeline: 1) Compared to
raw images from the decoded video, the compressed video, consisting of
I-frames, motion vectors and residuals, is highly distinguishable, which allows
us to leverage the entire video for learning without manual sampling through a
specialized model design; 2) The captioning model is more efficient in
inference as smaller and less redundant information is processed. We propose a
simple yet effective end-to-end transformer in the compressed domain for video
captioning that enables learning from the compressed video for captioning. We
show that even with a simple design, our method can achieve state-of-the-art
performance on different benchmarks while running almost 2x faster than
existing approaches. Code is available at https://github.com/acherstyx/CoCap.
- Abstract(参考訳): 既存のビデオキャプションアプローチでは、デコードされたビデオから最初にビデオフレームをサンプリングし、その後のプロセス(例えば特徴抽出やキャプションモデル学習)を実行する必要がある。
このパイプラインでは、手動のフレームサンプリングはビデオのキー情報を無視し、性能を低下させる。
さらに、サンプルフレーム内の冗長な情報は、ビデオキャプションの推論において、低効率をもたらす可能性がある。
これに対処するために,圧縮領域の異なる視点からビデオキャプションを研究し,既存のパイプラインに対して多面的なアドバンテージをもたらす。
1) 復号映像の原画像と比較すると,iフレーム,動きベクトル,残差からなる圧縮映像は,高度に識別可能であり,特殊なモデル設計により,手作業でサンプリングすることなく映像全体を学習することができる。
2)キャプションモデルは,より小さく,冗長な情報が処理されるので,推論においてより効率的である。
本稿では,ビデオキャプションの圧縮領域において,ビデオキャプションの圧縮領域から学習できる簡易かつ効果的なエンドツーエンド変換器を提案する。
簡単な設計であっても,既存手法の約2倍高速に動作しながら,異なるベンチマーク上で最先端のパフォーマンスを実現することができることを示す。
コードはhttps://github.com/acherstyx/CoCapで入手できる。
関連論文リスト
- Video-LaVIT: Unified Video-Language Pre-training with Decoupled
Visual-Motional Tokenization [53.92519123600325]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - SnapCap: Efficient Snapshot Compressive Video Captioning [18.016261978231835]
ビデオキャプション(VC)は、様々な複雑なビデオを理解することによって、言語でシーンを記述する必要があるため、困難なマルチモーダルタスクである。
本稿では,圧縮された測定値から直接キャプションを生成する新しいVCパイプラインを提案する。
圧縮された測定値から言語関連視覚表現をよりよく抽出するために,プレトレーニングされたCLIPを用いてビデオから知識を抽出することを提案する。
論文 参考訳(メタデータ) (2024-01-10T03:11:21Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [77.02631712558251]
本稿では,大言語モデル(LLM)の機能を活用して,ビデオに合わせた細粒度な映像記述を実現することを提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
評価の結果,得られたキャプションは,テキスト・ビデオ検索のための多くのベンチマーク・データセットよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - Compressed Vision for Efficient Video Understanding [83.97689018324732]
本稿では,2時間ビデオの処理が可能なハードウェアを用いて,時間長動画の研究を可能にするフレームワークを提案する。
私たちは、JPEGなどの標準的なビデオ圧縮をニューラル圧縮に置き換え、圧縮されたビデオを通常のビデオネットワークへの入力として直接フィードできることを示します。
論文 参考訳(メタデータ) (2022-10-06T15:35:49Z) - An Integrated Approach for Video Captioning and Applications [2.064612766965483]
ビデオのキャプションにより、長いビデオに適用するためのハイブリッドなディープラーニングアーキテクチャを設計する。
我々は、画像、ビデオ、自然言語をリンクすることは、多くの実用的な利点と即時的な実践的応用をもたらすと論じている。
論文 参考訳(メタデータ) (2022-01-23T01:06:00Z) - SwinBERT: End-to-End Transformers with Sparse Attention for Video
Captioning [40.556222166309524]
ビデオキャプションのためのエンドツーエンドトランスフォーマーモデルであるSwinBERTを提案する。
提案手法では,ビデオ入力の可変長に適応可能な空間時間表現を符号化するために,ビデオトランスフォーマを採用している。
このモデルアーキテクチャに基づいて,より密集したビデオフレームの映像キャプションが有用であることを示す。
論文 参考訳(メタデータ) (2021-11-25T18:02:12Z) - End-to-End Dense Video Captioning with Parallel Decoding [53.34238344647624]
パラレルデコーディング(PDVC)を用いたエンドツーエンドの高精細動画キャプションのための簡易かつ効果的なフレームワークを提案する。
PDVCは、ビデオをビデオの内容の全体的理解の下で、正確にいくつかのイベントに分類する。
ActivityNet CaptionsとYouCook2の実験は、PDVCが高品質なキャプション結果を生成することができることを示している。
論文 参考訳(メタデータ) (2021-08-17T17:39:15Z) - Open-book Video Captioning with Retrieve-Copy-Generate Network [42.374461018847114]
本稿では,従来のビデオキャプションタスクを新たなパラダイム,すなわちOpen-book Video Captioningに変換する。
本稿では,プラグイン可能なビデオ・テキスト検索システムを構築し,学習コーパスからのヒントとして文を効率的に検索するRetrieve-Copy-Generateネットワークを提案する。
本フレームワークは,従来の検索手法とオルソドックスエンコーダデコーダ法を協調して,検索した文中の多様な表現を描画するだけでなく,ビデオの自然な,正確な内容を生成する。
論文 参考訳(メタデータ) (2021-03-09T08:17:17Z) - Video Captioning in Compressed Video [1.953018353016675]
保存した圧縮映像を直接操作する映像キャプション手法を提案する。
ビデオキャプションの識別的視覚表現を学習するために,Iフレームに注目する領域を検出する残差支援エンコーダ (RAE) を設計する。
本手法を2つのベンチマークデータセットで評価し,本手法の有効性を示す。
論文 参考訳(メタデータ) (2021-01-02T03:06:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。