論文の概要: VideoCon: Robust Video-Language Alignment via Contrast Captions
- arxiv url: http://arxiv.org/abs/2311.10111v1
- Date: Wed, 15 Nov 2023 19:51:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 15:49:41.655715
- Title: VideoCon: Robust Video-Language Alignment via Contrast Captions
- Title(参考訳): videocon:コントラストキャプションによるロバストなビデオ言語アライメント
- Authors: Hritik Bansal, Yonatan Bitton, Idan Szpektor, Kai-Wei Chang, Aditya
Grover
- Abstract要約: ビデオ言語アライメントモデルは、ビデオキャプションのセマンティックなコントラスト変化に対して堅牢ではない。
私たちの研究は、エンティティの置換やアクション、イベント順序の反転など、幅広いコントラストのミスアライメントを特定します。
本モデルは,時間的に拡大したビデオ言語タスクにおけるゼロショット性能の新たな状態を設定する。
- 参考スコア(独自算出の注目度): 80.08882631838914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite being (pre)trained on a massive amount of data, state-of-the-art
video-language alignment models are not robust to semantically-plausible
contrastive changes in the video captions. Our work addresses this by
identifying a broad spectrum of contrast misalignments, such as replacing
entities, actions, and flipping event order, which alignment models should be
robust against. To this end, we introduce the VideoCon, a video-language
alignment dataset constructed by a large language model that generates
plausible contrast video captions and explanations for differences between
original and contrast video captions. Then, a generative video-language model
is finetuned with VideoCon to assess video-language entailment and generate
explanations. Our VideoCon-based alignment model significantly outperforms
current models. It exhibits a 12-point increase in AUC for the video-language
alignment task on human-generated contrast captions. Finally, our model sets
new state of the art zero-shot performance in temporally-extensive
video-language tasks such as text-to-video retrieval (SSv2-Temporal) and video
question answering (ATP-Hard). Moreover, our model shows superior performance
on novel videos and human-crafted captions and explanations. Our code and data
are available at https://github.com/Hritikbansal/videocon.
- Abstract(参考訳): 大量のデータに基づいて(事前)訓練されているにもかかわらず、最先端のビデオ言語アライメントモデルは、ビデオキャプションのセマンティックな対照的な変化に対して堅牢ではない。
私たちの研究は、エンティティやアクションの置き換え、イベント順序の反転といった、アライメントモデルに対して堅牢であるような、幅広いコントラストのミスアライメントを特定することで、この問題に対処しています。
この目的のために,大容量の言語モデルを用いて構築されたビデオ言語アライメントデータセットであるVideoConを導入し,ビデオキャプションとオリジナルキャプションとコントラストキャプションの違いを説明する。
次に、生成的ビデオ言語モデルにvideoconを微調整して、ビデオ言語含量を評価し、説明を生成する。
当社のビデオコンベースのアライメントモデルは,現在のモデルを大幅に上回っています。
コントラストキャプションを用いた映像言語アライメントタスクでは,aucが12ポイント向上している。
最後に,テキスト・ツー・ビデオ検索 (SSv2-Temporal) やビデオ質問応答 (ATP-Hard) など,時間的に拡大したビデオ言語タスクにおけるゼロショット性能の新たな状態を設定する。
さらに,本モデルでは,新しいビデオや人造キャプションや説明文に優れた性能を示す。
コードとデータはhttps://github.com/hritikbansal/videocon.comから入手できます。
関連論文リスト
- InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - Distilling Vision-Language Models on Millions of Videos [62.92789440875999]
合成した指導データを用いて,映像言語ベースラインから映像言語モデルを微調整する。
ビデオインストラクションチューニング(VIIT)によって生成されたビデオモデルは、高品質なキャプションを生成するために何百万ものビデオの自動ラベル付けに使用される。
副産物として、これまでで最大のビデオキャプションデータセットを生成します。
論文 参考訳(メタデータ) (2024-01-11T18:59:53Z) - Zero-Shot Dense Video Captioning by Jointly Optimizing Text and Moment [10.567291051485194]
ゼロショット方式で高密度映像キャプションを行う新しい手法であるZeroTAを提案する。
テスト時に各入力ビデオ内のイベントをローカライズし,記述する。
論文 参考訳(メタデータ) (2023-07-05T23:01:26Z) - Contrastive Video-Language Learning with Fine-grained Frame Sampling [54.542962813921214]
FineCoは、ビデオフレーム上で操作する微妙なコントラスト対象で、ビデオと言語表現をよりよく学習するアプローチである。
テキストと意味的に等価なフレームを選択することで、ビデオの削除を支援し、クロスモーダル対応を改善する。
論文 参考訳(メタデータ) (2022-10-10T22:48:08Z) - Language Models with Image Descriptors are Strong Few-Shot
Video-Language Learners [167.0346394848718]
画像と言語モデルを用いたビデオ言語学習システムVidILを提案する。
画像言語モデルを用いて、映像コンテンツをフレームキャプション、オブジェクト、属性、イベントフレーズに変換する。
次に、いくつかのインコンテキスト例を含むプロンプトを持つ言語モデルに指示して、合成されたコンテンツからターゲット出力を生成する。
論文 参考訳(メタデータ) (2022-05-22T05:18:27Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。