論文の概要: VideoCLIP-XL: Advancing Long Description Understanding for Video CLIP Models
- arxiv url: http://arxiv.org/abs/2410.00741v1
- Date: Fri, 4 Oct 2024 16:10:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 04:05:39.071993
- Title: VideoCLIP-XL: Advancing Long Description Understanding for Video CLIP Models
- Title(参考訳): VideoCLIP-XL:ビデオCLIPモデルの長文記述理解の改善
- Authors: Jiapeng Wang, Chengyu Wang, Kunzhe Huang, Jun Huang, Lianwen Jin,
- Abstract要約: Contrastive Language-Image Pre-Training (CLIP) は広く研究され、多くの応用に応用されている。
事前トレーニング中の短い要約テキストの強調は、CLIPが長い記述を理解することを妨げている。
ビデオCLIPモデルの長文記述理解能力を解き放つことを目的とした,ビデオCLIP-XL (eXtra Length) モデルを提案する。
- 参考スコア(独自算出の注目度): 38.429386337415785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Language-Image Pre-training (CLIP) has been widely studied and applied in numerous applications. However, the emphasis on brief summary texts during pre-training prevents CLIP from understanding long descriptions. This issue is particularly acute regarding videos given that videos often contain abundant detailed contents. In this paper, we propose the VideoCLIP-XL (eXtra Length) model, which aims to unleash the long-description understanding capability of video CLIP models. Firstly, we establish an automatic data collection system and gather a large-scale VILD pre-training dataset with VIdeo and Long-Description pairs. Then, we propose Text-similarity-guided Primary Component Matching (TPCM) to better learn the distribution of feature space while expanding the long description capability. We also introduce two new tasks namely Detail-aware Description Ranking (DDR) and Hallucination-aware Description Ranking (HDR) for further understanding improvement. Finally, we construct a Long Video Description Ranking (LVDR) benchmark for evaluating the long-description capability more comprehensively. Extensive experimental results on widely-used text-video retrieval benchmarks with both short and long descriptions and our LVDR benchmark can fully demonstrate the effectiveness of our method.
- Abstract(参考訳): Contrastive Language-Image Pre-Training (CLIP) は広く研究され、多くの応用に応用されている。
しかし、事前トレーニング中の短い要約テキストに重点を置いているため、CLIPは長い記述を理解することができない。
この問題は、ビデオが豊富な詳細コンテンツを含んでいることを考えると、特に鋭い。
本稿では,ビデオCLIPモデルの長文理解能力を解き放つことを目的とした,ビデオCLIP-XL(eXtra Length)モデルを提案する。
まず、自動データ収集システムを構築し、VIdeoとLong-Descriptionのペアで大規模なVILD事前学習データセットを収集する。
次に,テキスト類似性誘導型プライマリコンポーネントマッチング(TPCM)を提案し,長文記述能力を拡張しながら特徴空間の分布をよりよく学習する。
また,より理解を深めるために,Detail-aware Description Ranking (DDR) と Hallucination-aware Description Ranking (HDR) という2つの新しいタスクを導入した。
最後に,Long Video Description Ranking (LVDR) ベンチマークを構築し,より包括的にLong Video Description Ranking (LVDR) を評価する。
長文と短文を併用した広範に使用されているテキストビデオ検索ベンチマークとLVDRベンチマークの大規模な実験結果により,本手法の有効性が明らかとなった。
関連論文リスト
- PPLLaVA: Varied Video Sequence Understanding With Prompt Guidance [44.08446730529495]
トークン圧縮と命令対応の視覚的特徴集約を同時に実現する新しいプーリング戦略を提案する。
我々のモデルはPPLLaVA(Prompt-guided Pooling LLaVA)と呼ばれる。
論文 参考訳(メタデータ) (2024-11-04T17:50:36Z) - Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。
我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。
我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文 参考訳(メタデータ) (2024-04-04T11:59:06Z) - LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - A Video is Worth 10,000 Words: Training and Benchmarking with Diverse
Captions for Better Long Video Retrieval [43.58794386905177]
既存の長いビデオ検索システムは、段落から段落までの検索システムで訓練され、テストされる。
これは、ビデオのリッチさと多種多様な有効な記述を無視している。
本稿では,最先端の大規模言語モデルを利用して,多種多様な合成キャプションを注意深く生成するパイプラインを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:59:45Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。