論文の概要: Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment
- arxiv url: http://arxiv.org/abs/2406.19255v1
- Date: Thu, 27 Jun 2024 15:23:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 13:38:31.437556
- Title: Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment
- Title(参考訳): 構造時空間アライメントによる映像言語表現の強化
- Authors: Hao Fei, Shengqiong Wu, Meishan Zhang, Min Zhang, Tat-Seng Chua, Shuicheng Yan,
- Abstract要約: フィンスタは微細な構造的時間的アライメント学習法である。
既存の13の強化されたビデオ言語モデルも一貫して改善されている。
- 参考スコア(独自算出の注目度): 130.15775113897553
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While pre-training large-scale video-language models (VLMs) has shown remarkable potential for various downstream video-language tasks, existing VLMs can still suffer from certain commonly seen limitations, e.g., coarse-grained cross-modal aligning , under-modeling of temporal dynamics, detached video-language view. In this work, we target enhancing VLMs with a fine-grained structural spatio-temporal alignment learning method (namely Finsta). First of all, we represent the input texts and videos with fine-grained scene graph (SG) structures, both of which are further unified into a holistic SG (HSG) for bridging two modalities. Then, an SG-based framework is built, where the textual SG (TSG) is encoded with a graph Transformer, while the video dynamic SG (DSG) and the HSG are modeled with a novel recurrent graph Transformer for spatial and temporal feature propagation. A spatial-temporal Gaussian differential graph Transformer is further devised to strengthen the sense of the changes in objects across spatial and temporal dimensions. Next, based on the fine-grained structural features of TSG and DSG, we perform object-centered spatial alignment and predicate-centered temporal alignment respectively, enhancing the video-language grounding in both the spatiality and temporality. We design our method as a plug&play system, which can be integrated into existing well-trained VLMs for further representation augmentation, without training from scratch or relying on SG annotations in downstream applications. On 6 representative VL modeling tasks over 12 datasets in both standard and long-form video scenarios, Finsta consistently improves the existing 13 strong-performing VLMs persistently, and refreshes the current state-of-the-art end task performance significantly in both the fine-tuning and zero-shot settings.
- Abstract(参考訳): 大規模ビデオ言語モデル(VLM)の事前学習は、様々なダウンストリームビデオ言語タスクにおいて顕著な可能性を示しているが、既存のVLMは、例えば、粗い粒度のクロスモーダルアライメント、時間的ダイナミクスのアンダーモデリング、切り離されたビデオ言語ビューといった、一般的に見られる制限に悩まされている。
本研究では,細粒度構造時空間アライメント学習法(Finsta)を用いて,VLMの強化を目標とする。
まず,2つのモダリティをブリッジするために,より詳細なシーングラフ(SG)構造を持つ入力テキストとビデオを表現する。
次に、SGベースのフレームワークを構築し、テキストSG(TSG)をグラフ変換器で符号化し、ビデオダイナミックSG(DSG)とHSGを空間的・時間的特徴伝搬のための新しい再帰グラフ変換器でモデル化する。
空間・時間的ガウス微分グラフ変換器は、空間的・時間的次元にわたる物体の変化の感覚を強化するためにさらに考案された。
次に、TSG と DSG の微細な構造的特徴に基づき、それぞれ対象中心の空間的アライメントと述語中心の時間的アライメントを行い、空間性および時間性の両方においてビデオ言語基盤を強化する。
我々は,既存のよく訓練されたVLMに組み込んで,スクラッチからのトレーニングや下流アプリケーションでのSGアノテーションに頼ることなく,さらなる表現拡張を実現するプラグイン・プレイ・システムとして設計する。
標準および長期のビデオシナリオにおいて、12のデータセットにまたがる6つの代表的なVLモデリングタスクにおいて、Finstaは、既存の13の強いパフォーマンスのVLMを継続的に改善し、微調整とゼロショットの両方で現在の最先端のタスクパフォーマンスを大幅に改善する。
関連論文リスト
- Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation [49.298187741014345]
テクスト・ツー・ビデオ生成(T2V)の複雑さの増大につながる空間的内容と時間的ダイナミクスを相互に結合する現在の方法
ビデオの空間的要因と時間的要因を2つの視点から分離することで性能を向上する拡散モデルに基づくHiGenを提案する。
論文 参考訳(メタデータ) (2023-12-07T17:59:07Z) - Constructing Holistic Spatio-Temporal Scene Graph for Video Semantic
Role Labeling [96.64607294592062]
Video Semantic Label Roleing (VidSRL)は、与えられたビデオから健全なイベントを検出することを目的としている。
近年、VidSRLの手法が提案されているが、2つの重要な欠点を負う可能性がある。
論文 参考訳(メタデータ) (2023-08-09T17:20:14Z) - Incorporating Structured Representations into Pretrained Vision &
Language Models Using Scene Graphs [79.64891686479213]
シーングラフ(SG)から学習する場合、視覚と言語モデル(VLM)を改善することができることを示す。
視覚面では、SG情報を予測するために訓練されたイメージトランスフォーマーに特別な「SG成分」を組み込む一方、テキスト側では、SGを使ってきめ細かなキャプションを生成する。
提案手法は,ZS能力を軽度に低下させるだけで,複数のデータセット上でのVLMの性能を向上する。
論文 参考訳(メタデータ) (2023-05-10T17:52:26Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Deeply Interleaved Two-Stream Encoder for Referring Video Segmentation [87.49579477873196]
まず,CNNに基づく視覚特徴とトランスフォーマーに基づく言語特徴を階層的に抽出する2ストリームエンコーダを設計する。
視覚言語相互誘導(VLMG)モジュールをエンコーダに複数回挿入し,多モード特徴の階層的および進行的融合を促進する。
フレーム間の時間的アライメントを促進するために,言語誘導型マルチスケール動的フィルタリング(LMDF)モジュールを提案する。
論文 参考訳(メタデータ) (2022-03-30T01:06:13Z) - Spatio-Temporal Ranked-Attention Networks for Video Captioning [34.05025890230047]
2つの異なる順序でビデオに対する空間的および時間的注意を結合するモデルを提案する。
我々は、MSVDとMSR-VTTの2つのベンチマークデータセットについて実験を行った。
この結果,STモジュールとTSモジュールの相乗効果は最近の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2020-01-17T01:00:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。