論文の概要: Structured Video-Language Modeling with Temporal Grouping and Spatial
Grounding
- arxiv url: http://arxiv.org/abs/2303.16341v2
- Date: Fri, 8 Mar 2024 22:06:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 17:37:40.373381
- Title: Structured Video-Language Modeling with Temporal Grouping and Spatial
Grounding
- Title(参考訳): 時間的グルーピングと空間的グルーピングを用いた構造化ビデオ言語モデリング
- Authors: Yuanhao Xiong, Long Zhao, Boqing Gong, Ming-Hsuan Yang, Florian
Schroff, Ting Liu, Cho-Jui Hsieh, Liangzhe Yuan
- Abstract要約: 簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
- 参考スコア(独自算出の注目度): 117.23208392452693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing video-language pre-training methods primarily focus on
instance-level alignment between video clips and captions via global
contrastive learning but neglect rich fine-grained local information in both
videos and text, which is of importance to downstream tasks requiring temporal
localization and semantic reasoning. A powerful model is expected to be capable
of capturing region-object correspondences and recognizing scene changes in a
video clip, reflecting spatial and temporal granularity, respectively. To
strengthen model's understanding into such fine-grained details, we propose a
simple yet effective video-language modeling framework, S-ViLM, by exploiting
the intrinsic structures of these two modalities. It includes two novel
designs, inter-clip spatial grounding and intra-clip temporal grouping, to
promote learning region-object alignment and temporal-aware features,
simultaneously. Comprehensive evaluations demonstrate that S-ViLM performs
favorably against existing approaches in learning more expressive
representations. Specifically, S-ViLM surpasses the state-of-the-art methods
substantially on four representative downstream tasks, covering text-video
retrieval, video question answering, video action recognition, and temporal
action localization.
- Abstract(参考訳): 既存のビデオ言語による事前学習手法は主に、ビデオクリップとキャプション間のインスタンスレベルのアライメントをグローバルなコントラスト学習を通じて重視するが、ビデオとテキストの双方において、豊富なきめ細かい局所情報を無視する。
映像クリップ中の領域オブジェクトの対応を捉え,空間的および時間的粒度を反映したシーン変化を認識できる強力なモデルが期待されている。
このような細部までモデルの理解を深めるために,これらの2つのモダリティの本質的構造を生かして,単純かつ効果的なビデオ言語モデリングフレームワークs-vilmを提案する。
クリップ間空間グルーピングとクリップ内時間グルーピングという2つの新しいデザインがあり、学習領域のオブジェクトアライメントと時間認識機能を同時に推進している。
包括的評価により、S-ViLMはより表現力のある表現を学習する既存のアプローチに対して好適に機能することが示された。
具体的には、S-ViLMは、テキストビデオ検索、ビデオ質問応答、ビデオ行動認識、時間的行動ローカライゼーションの4つのタスクにおいて、最先端の手法を大幅に超えている。
関連論文リスト
- MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。
既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。
この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。
本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文 参考訳(メタデータ) (2024-06-25T18:39:43Z) - Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Grounding [108.79026216923984]
ビデオグラウンドイングは、入力テキストクエリに対応するビデオ内の時間セクションをローカライズすることを目的としている。
本稿では,現在のビデオグラウンドリング手法において,オープン語彙時空間ビデオグラウンドニングタスクを導入することにより,限界に対処する。
論文 参考訳(メタデータ) (2023-12-31T13:53:37Z) - DirecT2V: Large Language Models are Frame-Level Directors for Zero-Shot
Text-to-Video Generation [37.25815760042241]
本稿では,テキスト・ツー・ビデオ(T2V)ビデオを生成するための新しいフレームワークであるDirecT2Vを紹介する。
拡散モデルに新しい値マッピング法とデュアルソフトマックスフィルタリングを適用し、追加のトレーニングを必要としない。
実験により,視覚的コヒーレントかつストーリーフルなビデオ制作におけるフレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2023-05-23T17:57:09Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - PcmNet: Position-Sensitive Context Modeling Network for Temporal Action
Localization [11.685362686431446]
本論文では,位置情報と意味情報の両方を組み込んだ時間的位置感応型コンテキストモデリング手法を提案する。
THUMOS-14とActivityNet-1.3の2つの挑戦的なデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-03-09T07:34:01Z) - BiST: Bi-directional Spatio-Temporal Reasoning for Video-Grounded
Dialogues [95.8297116307127]
ビデオにおける高精細クエリのための視覚言語ニューラルフレームワークBi-directional Spatio-Temporal Learning (BiST)を提案する。
具体的には,空間的情報と時間的情報の両方を利用して,2つの特徴空間間の動的情報拡散を学習する。
BiSTは競争性能を達成し、大規模なAVSDベンチマークで適切な応答を生成する。
論文 参考訳(メタデータ) (2020-10-20T07:43:00Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。