論文の概要: CLIP4Caption ++: Multi-CLIP for Video Caption
- arxiv url: http://arxiv.org/abs/2110.05204v1
- Date: Mon, 11 Oct 2021 12:13:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 22:11:48.048646
- Title: CLIP4Caption ++: Multi-CLIP for Video Caption
- Title(参考訳): CLIP4Caption ++: ビデオキャプチャ用のマルチCLIP
- Authors: Mingkang Tang, Zhanyu Wang, Zhaoyang Zeng, Fengyun Rao, Dian Li
- Abstract要約: 本報告では, キャプションタスクにおけるVALUE Challenge 2021に対するソリューションについて述べる。
我々は,先進的なエンコーダ・デコーダモデルアーキテクチャであるX-Transformerをメインフレームワークとして採用している。
提案手法は, VATEX, YC2C, TVCデータセット上で86.5, 148.4, 64.5 CIDErのスコアを得る。
- 参考スコア(独自算出の注目度): 5.564793925574796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This report describes our solution to the VALUE Challenge 2021 in the
captioning task. Our solution, named CLIP4Caption++, is built on
X-Linear/X-Transformer, which is an advanced model with encoder-decoder
architecture. We make the following improvements on the proposed
CLIP4Caption++: We employ an advanced encoder-decoder model architecture
X-Transformer as our main framework and make the following improvements: 1) we
utilize three strong pre-trained CLIP models to extract the text-related
appearance visual features. 2) we adopt the TSN sampling strategy for data
enhancement. 3) we involve the video subtitle information to provide richer
semantic information. 3) we introduce the subtitle information, which fuses
with the visual features as guidance. 4) we design word-level and
sentence-level ensemble strategies. Our proposed method achieves 86.5, 148.4,
64.5 CIDEr scores on VATEX, YC2C, and TVC datasets, respectively, which shows
the superior performance of our proposed CLIP4Caption++ on all three datasets.
- Abstract(参考訳): 本報告では,キャプションタスクにおけるVALUE Challenge 2021に対するソリューションについて述べる。
私たちのソリューションはCLIP4Caption++と呼ばれ、エンコーダデコーダアーキテクチャを備えた高度なモデルであるX-Linear/X-Transformer上に構築されています。
提案する clip4caption++ では,次のような改善がなされています。 先進的なエンコーダ-デコーダモデルアーキテクチャ x-transformer をメインフレームワークとして採用し,次のような改善を行っています。
1) 3つの強化されたCLIPモデルを用いて,テキスト関連視覚特徴を抽出する。
2)データ強化にはTSNサンプリング戦略を採用する。
3)よりリッチな意味情報を提供するために,ビデオ字幕情報を含む。
3) 視覚的特徴と融合した字幕情報を導入する。
4)単語レベルおよび文レベルのアンサンブル戦略を設計する。
提案手法は,VATEX,YC2C,TVCの各データセットに対して,86.5,148.4,64.5 CIDErスコアを達成し,提案したCLIP4Caption++の3つのデータセットに対して,優れた性能を示す。
関連論文リスト
- BLIP3-KALE: Knowledge Augmented Large-Scale Dense Captions [118.35194230865451]
BLIP3-KALEは2億1800万の画像テキストペアからなるデータセットである。
KALEは、合成高密度画像キャプションをWebスケールのalt-textで拡張し、事実上接地された画像キャプションを生成する。
我々は、KALE上で視覚言語モデルを訓練し、視覚言語タスクの改善を示す。
論文 参考訳(メタデータ) (2024-11-12T00:52:52Z) - ShareGPT4Video: Improving Video Understanding and Generation with Better Captions [93.29360532845062]
本稿では,大容量ビデオ言語モデル(LVLM)の映像理解と,高密度かつ高精度なキャプションによるテキスト・ツー・ビデオモデル(T2VM)のビデオ生成を目的としたShareGPT4Videoシリーズを紹介する。
ShareGPT4Video, 40K GPT4V Annotated dense Casts of video with various lengths and sources, developed through carefully designed data filtering and annotating strategy。
さらに,任意の動画に対して高品質なキャプションを効率よく生成できる優れたキャプションキャプタであるShareCaptioner-Videoを開発した。
論文 参考訳(メタデータ) (2024-06-06T17:58:54Z) - Retrieval Enhanced Zero-Shot Video Captioning [69.96136689829778]
一般的な映像理解モデルXCLIP,一般画像理解モデルCLIP,テキスト生成モデルGPT-2の3つの主要なモデルを用いて映像とテキストをブリッジする。
そこで本研究では,凍結したGPT-2と凍結したXCLIPとの間の通信媒体として,学習可能なトークンを提案する。
実験では、従来の最先端の手法と比較して、主要な測定基準であるCIDErが4%から20%改善されている。
論文 参考訳(メタデータ) (2024-05-11T16:22:00Z) - Visual Fact Checker: Enabling High-Fidelity Detailed Caption Generation [34.45033554641476]
視覚的コンテンツの自動キャプション手法は、詳細の欠如、幻覚内容の欠如、後続の指示不足などの課題に直面している。
フレキシブルなトレーニングフリーパイプラインであるVisualFactChecker(VFC)を提案し、2次元画像と3次元オブジェクトの両方に対して高忠実かつ詳細なキャプションを生成する。
VFCは、1)画像からテキストへのキャプションモデルが複数の初期キャプションを提案する提案、2)大規模言語モデル(LLM)がオブジェクト検出やVQAモデルなどのツールを使用して提案されたキャプションをファクトチェックする検証の3段階で構成されている。
論文 参考訳(メタデータ) (2024-04-30T17:55:27Z) - Building an Open-Vocabulary Video CLIP Model with Better Architectures,
Optimization and Data [102.0069667710562]
本稿では,CLIPを強力なゼロショットビデオ分類器に適応させるフレームワークであるOpen-VCLIP++を提案する。
我々は,Open-VCLIP++のトレーニングが,履歴データゼロで連続的な学習に欠かせないことを実証した。
提案手法は,広く使用されている3つの行動認識データセットを用いて評価する。
論文 参考訳(メタデータ) (2023-10-08T04:46:43Z) - Prompt Switch: Efficient CLIP Adaptation for Text-Video Retrieval [24.691270610091554]
本稿では,ビデオから意味的に強調された表現を純粋に学習し,ビデオ表現をオフラインで計算し,異なるテキストに対して再利用することを目的とする。
MSR-VTT, MSVD, LSMDCの3つのベンチマークデータセット上で, 最先端のパフォーマンスを得る。
論文 参考訳(メタデータ) (2023-08-15T08:54:25Z) - Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval? [131.300931102986]
現実のシナリオでは、オンラインビデオにはタイトルやタグ、サブタイトルなど、関連するテキスト情報が添付されることが多い。
そこで本研究では,ゼロショットビデオキャプションを用いて動画から関連キャプションを直接生成する手法を提案する。
我々は,我々のアプローチの有効性を実証する包括的アブレーション研究を行っている。
論文 参考訳(メタデータ) (2022-12-31T11:50:32Z) - CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language
Representation Alignment [146.3128011522151]
本稿では,CLIP,すなわちCLIP-ViPに基づいて,ビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。
提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。
MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文 参考訳(メタデータ) (2022-09-14T05:47:02Z) - CLIP4Caption: CLIP for Video Caption [9.470254059503862]
私たちは、CLIP対応ビデオテキストマッチングネットワーク(VTM)に基づくビデオキャプションを改善するCLIP4Captionフレームワークを提案する。
このフレームワークは、視覚と言語の両方からの情報を完全に活用し、テキスト生成のための強力なテキスト関連ビデオ機能を学ぶためにモデルを強制している。
論文 参考訳(メタデータ) (2021-10-13T10:17:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。