論文の概要: Revisiting the "Video" in Video-Language Understanding
- arxiv url: http://arxiv.org/abs/2206.01720v1
- Date: Fri, 3 Jun 2022 17:57:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-06 12:48:25.405972
- Title: Revisiting the "Video" in Video-Language Understanding
- Title(参考訳): ビデオ言語理解における「ビデオ」の再考
- Authors: Shyamal Buch, Crist\'obal Eyzaguirre, Adrien Gaidon, Jiajun Wu, Li
Fei-Fei, Juan Carlos Niebles
- Abstract要約: 本稿では,ビデオ言語解析の新しいモデルであるアテンポラルプローブ(ATP)を提案する。
現在のビデオ言語ベンチマークの限界とポテンシャルを特徴付ける。
ATPをフルビデオレベル時間モデルに効果的に統合することで、効率と最先端の精度が向上することを示す。
- 参考スコア(独自算出の注目度): 56.15777956496518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: What makes a video task uniquely suited for videos, beyond what can be
understood from a single image? Building on recent progress in self-supervised
image-language models, we revisit this question in the context of video and
language tasks. We propose the atemporal probe (ATP), a new model for
video-language analysis which provides a stronger bound on the baseline
accuracy of multimodal models constrained by image-level understanding. By
applying this model to standard discriminative video and language tasks, such
as video question answering and text-to-video retrieval, we characterize the
limitations and potential of current video-language benchmarks. We find that
understanding of event temporality is often not necessary to achieve strong or
state-of-the-art performance, even compared with recent large-scale
video-language models and in contexts intended to benchmark deeper video-level
understanding. We also demonstrate how ATP can improve both video-language
dataset and model design. We describe a technique for leveraging ATP to better
disentangle dataset subsets with a higher concentration of temporally
challenging data, improving benchmarking efficacy for causal and temporal
understanding. Further, we show that effectively integrating ATP into full
video-level temporal models can improve efficiency and state-of-the-art
accuracy.
- Abstract(参考訳): ひとつの画像から理解できる範囲を超えて、ビデオに特有なビデオタスクに何をもたらすのか?
自己教師付き画像言語モデルの最近の進歩を踏まえて,本質問を映像と言語課題の文脈で再検討する。
画像レベルの理解に制約されたマルチモーダルモデルのベースライン精度に強い拘束力を与えるビデオ言語解析の新しいモデルであるアテンポラルプローブ(ATP)を提案する。
このモデルをビデオ質問応答やテキストからビデオへの検索などの標準の判別ビデオや言語タスクに適用することにより、現在のビデオ言語ベンチマークの限界と可能性を特徴付ける。
近年の大規模ビデオ言語モデルや、より深いビデオレベルの理解のベンチマークを目的とした文脈においても、イベントの時間性の理解は、強固あるいは最先端のパフォーマンスを達成するために必要ではないことが判明した。
また、ATPがビデオ言語データセットとモデル設計の両方を改善できることを示す。
本稿では,ATPを有効利用して,時間的難易度の高いデータセットサブセットを分解し,因果的および時間的理解のためのベンチマークの有効性を向上させる手法について述べる。
さらに, ATPをフルビデオレベル時間モデルに効果的に統合することで, 効率と最先端の精度が向上することを示した。
関連論文リスト
- Realizing Video Summarization from the Path of Language-based Semantic Understanding [19.825666473712197]
本稿では,Mixture of Experts(MoE)パラダイムに触発された新しいビデオ要約フレームワークを提案する。
提案手法は,複数のビデオLLMを統合し,包括的で一貫性のあるテキスト要約を生成する。
論文 参考訳(メタデータ) (2024-10-06T15:03:22Z) - InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - VideoCon: Robust Video-Language Alignment via Contrast Captions [80.08882631838914]
ビデオ言語アライメントモデルは、ビデオキャプションのセマンティックなコントラスト変化に対して堅牢ではない。
私たちの研究は、エンティティの置換やアクション、イベント順序の反転など、幅広いコントラストのミスアライメントを特定します。
本モデルは,時間的に拡大したビデオ言語タスクにおけるゼロショット性能の新たな状態を設定する。
論文 参考訳(メタデータ) (2023-11-15T19:51:57Z) - Test of Time: Instilling Video-Language Models with a Sense of Time [42.290970800790184]
既存の7つのビデオ言語モデルは、単純な時間的関係を理解するのに苦労している。
そこで本稿では,少量のビデオテキストデータに基づく事前学習に基づく時間適応手法であるVideoCLIPを提案する。
タスクにより高い時間意識を必要とする場合,特にパフォーマンス向上の促進を観察する。
論文 参考訳(メタデータ) (2023-01-05T14:14:36Z) - HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training [49.52679453475878]
本稿では,モーメントとテキスト間の相互アライメントをモデル化するための時間対応ビデオ言語事前学習フレームワークHiTeAを提案する。
15の精確なビデオ言語理解と生成タスクに関する最先端の成果を得た。
論文 参考訳(メタデータ) (2022-12-30T04:27:01Z) - LiteVL: Efficient Video-Language Learning with Enhanced Spatial-Temporal
Modeling [48.283659682112926]
本稿では,事前学習した画像言語モデルBLIPを,下流タスク上で直接ビデオテキストモデルに適応させるLiteVLを提案する。
また、テキスト上に埋め込まれた微細なビデオ埋め込み条件を適応的に重み付けする非パラメトリックプーリング機構を提案する。
論文 参考訳(メタデータ) (2022-10-21T13:03:49Z) - Long-Form Video-Language Pre-Training with Multimodal Temporal
Contrastive Learning [39.80936685227549]
大規模ビデオ言語事前学習では、ビデオ言語理解タスクが大幅に改善されている。
我々は、VILA(Long-Form VIdeo-LAnguage Pre-Training Model)を導入し、大規模な長文ビデオおよび段落データセットでトレーニングする。
我々は、7つの下流の長文ビデオ言語理解タスクでモデルを微調整し、新しい最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-12T09:08:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。