論文の概要: CLIP4Caption: CLIP for Video Caption
- arxiv url: http://arxiv.org/abs/2110.06615v1
- Date: Wed, 13 Oct 2021 10:17:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-14 22:28:07.461342
- Title: CLIP4Caption: CLIP for Video Caption
- Title(参考訳): clip4caption: ビデオキャプションのためのクリップ
- Authors: Mingkang Tang, Zhanyu Wang, Zhenhua Liu, Fengyun Rao, Dian Li, Xiu Li
- Abstract要約: 私たちは、CLIP対応ビデオテキストマッチングネットワーク(VTM)に基づくビデオキャプションを改善するCLIP4Captionフレームワークを提案する。
このフレームワークは、視覚と言語の両方からの情報を完全に活用し、テキスト生成のための強力なテキスト関連ビデオ機能を学ぶためにモデルを強制している。
- 参考スコア(独自算出の注目度): 9.470254059503862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video captioning is a challenging task since it requires generating sentences
describing various diverse and complex videos. Existing video captioning models
lack adequate visual representation due to the neglect of the existence of gaps
between videos and texts. To bridge this gap, in this paper, we propose a
CLIP4Caption framework that improves video captioning based on a CLIP-enhanced
video-text matching network (VTM). This framework is taking full advantage of
the information from both vision and language and enforcing the model to learn
strongly text-correlated video features for text generation. Besides, unlike
most existing models using LSTM or GRU as the sentence decoder, we adopt a
Transformer structured decoder network to effectively learn the long-range
visual and language dependency. Additionally, we introduce a novel ensemble
strategy for captioning tasks. Experimental results demonstrate the
effectiveness of our method on two datasets: 1) on MSR-VTT dataset, our method
achieved a new state-of-the-art result with a significant gain of up to 10% in
CIDEr; 2) on the private test data, our method ranking 2nd place in the ACM MM
multimedia grand challenge 2021: Pre-training for Video Understanding
Challenge. It is noted that our model is only trained on the MSR-VTT dataset.
- Abstract(参考訳): ビデオキャプションは、様々な多様で複雑なビデオを記述する文を生成する必要があるため、難しい課題である。
既存のビデオキャプションモデルは、ビデオとテキストのギャップを無視するため、十分な視覚表現が欠けている。
本稿では,このギャップを埋めるために,CLIPを拡張したビデオテキストマッチングネットワーク(VTM)に基づく映像キャプションを改善するCLIP4Captionフレームワークを提案する。
このフレームワークは、視覚と言語からの情報を最大限に活用し、テキスト生成のための強固なテキスト関連ビデオ機能を学ぶためにモデルを強制している。
また、LSTMやGRUを文デコーダとして使用する既存のモデルとは異なり、Transformer構造型デコーダネットワークを採用し、長期の視覚的および言語的依存を効果的に学習する。
さらに,字幕処理のための新しいアンサンブル戦略を提案する。
実験により,2つのデータセットに対する本手法の有効性が示された。
1) msr-vttデータセット上では,ciderにおいて最大10%の利得率で新たな最先端結果を得た。
2) プライベートテストデータでは,ACM MM マルチメディア・グランドチャレンジ 2021: ビデオ理解チャレンジの事前学習において2位にランクインした。
我々のモデルは MSR-VTT データセットでのみ訓練されている。
関連論文リスト
- Retrieval Enhanced Zero-Shot Video Captioning [69.96136689829778]
一般的な映像理解モデルXCLIP,一般画像理解モデルCLIP,テキスト生成モデルGPT-2の3つの主要なモデルを用いて映像とテキストをブリッジする。
そこで本研究では,凍結したGPT-2と凍結したXCLIPとの間の通信媒体として,学習可能なトークンを提案する。
実験では、従来の最先端の手法と比較して、主要な測定基準であるCIDErが4%から20%改善されている。
論文 参考訳(メタデータ) (2024-05-11T16:22:00Z) - Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - VLAB: Enhancing Video Language Pre-training by Feature Adapting and
Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。
本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。
VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文 参考訳(メタデータ) (2023-05-22T15:54:22Z) - CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language
Representation Alignment [146.3128011522151]
本稿では,CLIP,すなわちCLIP-ViPに基づいて,ビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。
提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。
MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文 参考訳(メタデータ) (2022-09-14T05:47:02Z) - CLIP2Video: Mastering Video-Text Retrieval via Image CLIP [13.270902407320005]
本稿では、CLIP2Videoネットワークを用いて、画像言語学習モデルをエンドツーエンドでビデオテキスト検索に転送する。
我々は,テキスト・ツー・ビデオ・トゥ・テキスト・検索ベンチマークにおいて,徹底的なアブレーション研究を行い,最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-21T13:30:33Z) - Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval [80.7397409377659]
大規模画像と映像キャプションの両方のデータセットを利用した,エンドツーエンドのトレーニング可能なモデルを提案する。
私たちのモデルは柔軟で、画像とビデオの両方のテキストデータセットで、独立に、または同時にトレーニングできます。
この手法は,標準ダウンストリームビデオリトライバルベンチマークにおいて最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-01T17:48:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。