論文の概要: SnapCap: Efficient Snapshot Compressive Video Captioning
- arxiv url: http://arxiv.org/abs/2401.04903v1
- Date: Wed, 10 Jan 2024 03:11:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 15:27:45.238202
- Title: SnapCap: Efficient Snapshot Compressive Video Captioning
- Title(参考訳): SnapCap:効率的なスナップショット圧縮ビデオキャプチャ
- Authors: Jianqiao Sun, Yudi Su, Hao Zhang, Ziheng Cheng, Zequn Zeng, Zhengjue
Wang, Bo Chen, Xin Yuan
- Abstract要約: ビデオキャプション(VC)は、様々な複雑なビデオを理解することによって、言語でシーンを記述する必要があるため、困難なマルチモーダルタスクである。
本稿では,圧縮された測定値から直接キャプションを生成する新しいVCパイプラインを提案する。
圧縮された測定値から言語関連視覚表現をよりよく抽出するために,プレトレーニングされたCLIPを用いてビデオから知識を抽出することを提案する。
- 参考スコア(独自算出の注目度): 18.016261978231835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Captioning (VC) is a challenging multi-modal task since it requires
describing the scene in language by understanding various and complex videos.
For machines, the traditional VC follows the
"imaging-compression-decoding-and-then-captioning" pipeline, where compression
is pivot for storage and transmission. However, in such a pipeline, some
potential shortcomings are inevitable, i.e., information redundancy resulting
in low efficiency and information loss during the sampling process for
captioning. To address these problems, in this paper, we propose a novel VC
pipeline to generate captions directly from the compressed measurement, which
can be captured by a snapshot compressive sensing camera and we dub our model
SnapCap. To be more specific, benefiting from the signal simulation, we have
access to obtain abundant measurement-video-annotation data pairs for our
model. Besides, to better extract language-related visual representations from
the compressed measurement, we propose to distill the knowledge from videos via
a pre-trained CLIP with plentiful language-vision associations to guide the
learning of our SnapCap. To demonstrate the effectiveness of SnapCap, we
conduct experiments on two widely-used VC datasets. Both the qualitative and
quantitative results verify the superiority of our pipeline over conventional
VC pipelines. In particular, compared to the "caption-after-reconstruction"
methods, our SnapCap can run at least 3$\times$ faster, and achieve better
caption results.
- Abstract(参考訳): ビデオキャプション(vc)は、様々な複雑なビデオを理解することでシーンを言語で記述する必要があるため、難しいマルチモーダルタスクである。
マシンの場合、従来のVCは“イメージ圧縮復号化”パイプラインに従っており、圧縮はストレージとトランスミッションに要する。
しかし、このようなパイプラインでは、キャプションのサンプリングプロセス中に、低い効率と情報損失をもたらす情報冗長性といった潜在的な欠点が避けられない。
これらの問題に対処するため,本研究では,圧縮された測定値から直接キャプションを生成する新しいVCパイプラインを提案する。
より具体的であり,信号シミュレーションの利点を生かして,我々は十分な計測・ビデオ・アノテーションデータペアを得ることができる。
また,圧縮測定から言語に関連した視覚的表現をよりよく抽出するために,snapcapの学習を導くために,事前学習した映像クリップを用いて,映像からの知識を蒸留することを提案する。
SnapCapの有効性を示すために、広く使われている2つのVCデータセットで実験を行う。
定性的かつ定量的な結果は、従来のVCパイプラインよりもパイプラインの優位性を検証する。
特に、"Caption-after-reconstruction"メソッドと比較して、SnapCapは少なくとも3$\times$速く動作し、より良いキャプション結果を得ることができる。
関連論文リスト
- AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark [73.62572976072578]
大規模なマルチモーダルモデルに基づくビデオキャプタであるAuroraCapを提案する。
トークンマージ戦略を実装し、入力されたビジュアルトークンの数を減らす。
AuroraCapは、様々なビデオおよび画像キャプションベンチマークで優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-04T00:13:54Z) - VCR: Visual Caption Restoration [80.24176572093512]
画像内の画素レベルのヒントを用いて、部分的に隠されたテキストを正確に復元するモデルに挑戦する視覚言語タスクであるVisual Caption Restoration (VCR)を導入する。
この課題は、画像に埋め込まれたテキストは、視覚、テキスト、および画像に埋め込まれたテキストのモダリティを整合させる必要があるため、共通の視覚要素や自然言語とは本質的に異なるという観察に由来する。
論文 参考訳(メタデータ) (2024-06-10T16:58:48Z) - Retrieval Enhanced Zero-Shot Video Captioning [69.96136689829778]
一般的な映像理解モデルXCLIP,一般画像理解モデルCLIP,テキスト生成モデルGPT-2の3つの主要なモデルを用いて映像とテキストをブリッジする。
そこで本研究では,凍結したGPT-2と凍結したXCLIPとの間の通信媒体として,学習可能なトークンを提案する。
実験では、従来の最先端の手法と比較して、主要な測定基準であるCIDErが4%から20%改善されている。
論文 参考訳(メタデータ) (2024-05-11T16:22:00Z) - Accurate and Fast Compressed Video Captioning [28.19362369787383]
既存のビデオキャプションアプローチでは、デコードされたビデオから最初にビデオフレームをサンプリングし、その後のプロセスを実行する必要がある。
圧縮領域の異なる視点からビデオキャプションについて検討し、既存のパイプラインに対してマルチフォールドの利点をもたらす。
本稿では,ビデオキャプションの圧縮領域において,ビデオキャプションの圧縮領域から学習可能な,シンプルで効果的なエンドツーエンド変換器を提案する。
論文 参考訳(メタデータ) (2023-09-22T13:43:22Z) - Vote2Cap-DETR++: Decoupling Localization and Describing for End-to-End
3D Dense Captioning [37.44886367452029]
3Dシークエンスキャプションは、入力された3Dシーンの理解を、異なるオブジェクト領域に関連する複数のキャプションに変換するモデルを必要とする。
既存の手法では洗練された"detect-then-describe"パイプラインを採用しており、多数の手作り部品を持つ3D検出器上に明示的な関係モジュールを構築する。
まず,キャプション生成のデコード処理と並列デコードによるオブジェクトローカライゼーションを分離する,単純なyet効率のトランスフォーマフレームワークであるVote2Cap-DETRを提案する。
論文 参考訳(メタデータ) (2023-09-06T13:43:27Z) - DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only
Training [73.74291217502928]
ゼロショットキャプションのための単純なフレームワークであるDeCapを提案する。
軽量な視覚認識言語デコーダを提案する。
視覚的な埋め込みはCLIPテキスト埋め込み空間に投影するが、投影された埋め込みは視覚的な入力の情報を保持する。
論文 参考訳(メタデータ) (2023-03-06T11:02:47Z) - Retrieval-augmented Image Captioning [15.266569206458648]
本稿では,入力画像とデータストアから検索したキャプションの集合が与えられた文を生成する画像キャプションに新たなアプローチを提案する。
我々のモデルにおけるエンコーダは、事前訓練されたV&L BERTを用いて、画像と検索されたキャプションを共同で処理する。
我々の研究は、標準分類タスクではなく、事前訓練されたV&Lエンコーダを生成タスクに利用することに貢献している。
論文 参考訳(メタデータ) (2023-02-16T12:54:13Z) - Learning Audio-Video Modalities from Image Captions [62.772232865072745]
テキストビデオとテキストオーディオ検索における大きな課題は、大規模なトレーニングデータがないことである。
画像キャプションデータセットからビデオクリップへのキャプションを手作業なしで転送する新しいビデオマイニングパイプラインを提案する。
このデータに基づくマルチモーダル変換モデルによるトレーニングは、ビデオ検索やビデオキャプションの競合性能、マッチング、さらには20倍のクリップでHowTo100Mの事前トレーニングよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-01T19:48:18Z) - End-to-End Dense Video Captioning with Parallel Decoding [53.34238344647624]
パラレルデコーディング(PDVC)を用いたエンドツーエンドの高精細動画キャプションのための簡易かつ効果的なフレームワークを提案する。
PDVCは、ビデオをビデオの内容の全体的理解の下で、正確にいくつかのイベントに分類する。
ActivityNet CaptionsとYouCook2の実験は、PDVCが高品質なキャプション結果を生成することができることを示している。
論文 参考訳(メタデータ) (2021-08-17T17:39:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。