論文の概要: Accurate and Fast Compressed Video Captioning
- arxiv url: http://arxiv.org/abs/2309.12867v2
- Date: Wed, 3 Jan 2024 08:29:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 16:46:40.501755
- Title: Accurate and Fast Compressed Video Captioning
- Title(参考訳): 高精度・高速圧縮ビデオキャプション
- Authors: Yaojie Shen, Xin Gu, Kai Xu, Heng Fan, Longyin Wen, Libo Zhang
- Abstract要約: 既存のビデオキャプションアプローチでは、デコードされたビデオから最初にビデオフレームをサンプリングし、その後のプロセスを実行する必要がある。
圧縮領域の異なる視点からビデオキャプションについて検討し、既存のパイプラインに対してマルチフォールドの利点をもたらす。
本稿では,ビデオキャプションの圧縮領域において,ビデオキャプションの圧縮領域から学習可能な,シンプルで効果的なエンドツーエンド変換器を提案する。
- 参考スコア(独自算出の注目度): 28.19362369787383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing video captioning approaches typically require to first sample video
frames from a decoded video and then conduct a subsequent process (e.g.,
feature extraction and/or captioning model learning). In this pipeline, manual
frame sampling may ignore key information in videos and thus degrade
performance. Additionally, redundant information in the sampled frames may
result in low efficiency in the inference of video captioning. Addressing this,
we study video captioning from a different perspective in compressed domain,
which brings multi-fold advantages over the existing pipeline: 1) Compared to
raw images from the decoded video, the compressed video, consisting of
I-frames, motion vectors and residuals, is highly distinguishable, which allows
us to leverage the entire video for learning without manual sampling through a
specialized model design; 2) The captioning model is more efficient in
inference as smaller and less redundant information is processed. We propose a
simple yet effective end-to-end transformer in the compressed domain for video
captioning that enables learning from the compressed video for captioning. We
show that even with a simple design, our method can achieve state-of-the-art
performance on different benchmarks while running almost 2x faster than
existing approaches. Code is available at https://github.com/acherstyx/CoCap.
- Abstract(参考訳): 既存のビデオキャプションアプローチでは、デコードされたビデオから最初にビデオフレームをサンプリングし、その後のプロセス(例えば特徴抽出やキャプションモデル学習)を実行する必要がある。
このパイプラインでは、手動のフレームサンプリングはビデオのキー情報を無視し、性能を低下させる。
さらに、サンプルフレーム内の冗長な情報は、ビデオキャプションの推論において、低効率をもたらす可能性がある。
これに対処するために,圧縮領域の異なる視点からビデオキャプションを研究し,既存のパイプラインに対して多面的なアドバンテージをもたらす。
1) 復号映像の原画像と比較すると,iフレーム,動きベクトル,残差からなる圧縮映像は,高度に識別可能であり,特殊なモデル設計により,手作業でサンプリングすることなく映像全体を学習することができる。
2)キャプションモデルは,より小さく,冗長な情報が処理されるので,推論においてより効率的である。
本稿では,ビデオキャプションの圧縮領域において,ビデオキャプションの圧縮領域から学習できる簡易かつ効果的なエンドツーエンド変換器を提案する。
簡単な設計であっても,既存手法の約2倍高速に動作しながら,異なるベンチマーク上で最先端のパフォーマンスを実現することができることを示す。
コードはhttps://github.com/acherstyx/CoCapで入手できる。
関連論文リスト
- Whats in a Video: Factorized Autoregressive Decoding for Online Dense Video Captioning [71.94122309290537]
ビデオの高密度キャプションを生成するための,効率的なオンライン手法を提案する。
我々のモデルは、新しい自己回帰因子化復号化アーキテクチャを使用している。
提案手法は,オフライン手法とオンライン手法の両方と比較して優れた性能を示し,計算コストを20%削減する。
論文 参考訳(メタデータ) (2024-11-22T02:46:44Z) - SITAR: Semi-supervised Image Transformer for Action Recognition [20.609596080624662]
本稿では,少数のラベル付きビデオを利用する半教師付き環境での映像行動認識について述べる。
我々は、ラベルなしサンプルの膨大なプールを利用して、エンコードされたスーパーイメージに対して対照的な学習を行う。
本手法は,従来の半教師あり行動認識手法と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-04T17:49:54Z) - Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - Streaming Dense Video Captioning [85.70265343236687]
濃密なビデオキャプションのための理想的なモデルは、長い入力ビデオを扱うことができ、リッチで詳細なテキスト記述を予測できる。
現在の最先端モデルは、一定の数のダウンサンプルフレームを処理し、ビデオ全体を見た後、単一の完全な予測を行う。
本稿では,2つの新しいコンポーネントからなるストリーミング高密度動画キャプションモデルを提案する。
論文 参考訳(メタデータ) (2024-04-01T17:59:15Z) - SnapCap: Efficient Snapshot Compressive Video Captioning [18.016261978231835]
ビデオキャプション(VC)は、様々な複雑なビデオを理解することによって、言語でシーンを記述する必要があるため、困難なマルチモーダルタスクである。
本稿では,圧縮された測定値から直接キャプションを生成する新しいVCパイプラインを提案する。
圧縮された測定値から言語関連視覚表現をよりよく抽出するために,プレトレーニングされたCLIPを用いてビデオから知識を抽出することを提案する。
論文 参考訳(メタデータ) (2024-01-10T03:11:21Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - Compressed Vision for Efficient Video Understanding [83.97689018324732]
本稿では,2時間ビデオの処理が可能なハードウェアを用いて,時間長動画の研究を可能にするフレームワークを提案する。
私たちは、JPEGなどの標準的なビデオ圧縮をニューラル圧縮に置き換え、圧縮されたビデオを通常のビデオネットワークへの入力として直接フィードできることを示します。
論文 参考訳(メタデータ) (2022-10-06T15:35:49Z) - An Integrated Approach for Video Captioning and Applications [2.064612766965483]
ビデオのキャプションにより、長いビデオに適用するためのハイブリッドなディープラーニングアーキテクチャを設計する。
我々は、画像、ビデオ、自然言語をリンクすることは、多くの実用的な利点と即時的な実践的応用をもたらすと論じている。
論文 参考訳(メタデータ) (2022-01-23T01:06:00Z) - SwinBERT: End-to-End Transformers with Sparse Attention for Video
Captioning [40.556222166309524]
ビデオキャプションのためのエンドツーエンドトランスフォーマーモデルであるSwinBERTを提案する。
提案手法では,ビデオ入力の可変長に適応可能な空間時間表現を符号化するために,ビデオトランスフォーマを採用している。
このモデルアーキテクチャに基づいて,より密集したビデオフレームの映像キャプションが有用であることを示す。
論文 参考訳(メタデータ) (2021-11-25T18:02:12Z) - Open-book Video Captioning with Retrieve-Copy-Generate Network [42.374461018847114]
本稿では,従来のビデオキャプションタスクを新たなパラダイム,すなわちOpen-book Video Captioningに変換する。
本稿では,プラグイン可能なビデオ・テキスト検索システムを構築し,学習コーパスからのヒントとして文を効率的に検索するRetrieve-Copy-Generateネットワークを提案する。
本フレームワークは,従来の検索手法とオルソドックスエンコーダデコーダ法を協調して,検索した文中の多様な表現を描画するだけでなく,ビデオの自然な,正確な内容を生成する。
論文 参考訳(メタデータ) (2021-03-09T08:17:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。