論文の概要: Mug-STAN: Adapting Image-Language Pretrained Models for General Video
Understanding
- arxiv url: http://arxiv.org/abs/2311.15075v1
- Date: Sat, 25 Nov 2023 17:01:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 22:08:02.057764
- Title: Mug-STAN: Adapting Image-Language Pretrained Models for General Video
Understanding
- Title(参考訳): Mug-STAN:一般的なビデオ理解のための画像言語事前学習モデルの適用
- Authors: Ruyang Liu and Jingjia Huang and Wei Gao and Thomas H. Li and Ge Li
- Abstract要約: マルチガイドアライメントモジュール(Mug-STAN)を用いた空間時間補助ネットワークを提案する。
Mug-STANは、CLIPやCoCaといった言語画像事前学習モデルの、ビデオテキスト後トレーニングと微調整の段階における適応性を著しく改善する。
- 参考スコア(独自算出の注目度): 47.97650346560239
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale image-language pretrained models, e.g., CLIP, have demonstrated
remarkable proficiency in acquiring general multi-modal knowledge through
web-scale image-text data. Despite the impressive performance of image-language
models on various image tasks, how to effectively expand them on general video
understanding remains an area of ongoing exploration. In this paper, we
investigate the image-to-video transferring from the perspective of the model
and the data, unveiling two key obstacles impeding the adaptation of
image-language models: non-generalizable temporal modeling and partially
misaligned video-text data. To address these challenges, we propose
Spatial-Temporal Auxiliary Network with Mutual-guided alignment module
(Mug-STAN), a simple yet effective framework extending image-text model to
diverse video tasks and video-text data.Specifically, STAN adopts a branch
structure with decomposed spatial-temporal modules to enable generalizable
temporal modeling, while Mug suppresses misalignment by introducing token-wise
feature aggregation of either modality from the other. Extensive experimental
results verify Mug-STAN significantly improves adaptation of language-image
pretrained models such as CLIP and CoCa at both video-text post-pretraining and
finetuning stages. With our solution, state-of-the-art zero-shot and finetuning
results on various downstream datasets, including MSR-VTT, DiDeMo, LSMDC,
Kinetics-400, Something-Something-2, HMDB-51, UCF- 101, and AVA, are achieved.
Moreover, by integrating pretrained Mug-STAN with the emerging multimodal
dialogue model, we can realize zero-shot video chatting. Codes are available at
https://github.com/farewellthree/STAN
- Abstract(参考訳): 大規模画像言語事前訓練モデル(例えばCLIP)は、Webスケールの画像テキストデータを通じて一般的なマルチモーダル知識を得るのに顕著な能力を示した。
様々な画像タスクにおける画像言語モデルの印象的なパフォーマンスにもかかわらず、一般的なビデオ理解でそれらを効果的に拡張する方法は、現在も調査中である。
本稿では、画像言語モデルの適応を妨げる2つの重要な障害、すなわち、一般化不可能な時間モデルと部分的に不一致なビデオテキストデータを明らかにする。
これらの課題に対処するため、Mug-STANは、画像テキストモデルを多様なビデオタスクやビデオテキストデータに拡張するシンプルかつ効果的なフレームワークであり、STANは分解された空間時間モジュールを持つ分岐構造を採用して、一般化可能な時間的モデリングを実現し、Mugは両モードのトークンワイドな特徴集約を導入することで、不整合を抑制する。
この結果,Mug-STANはCLIPやCoCaといった言語画像事前学習モデルの,ビデオテキスト後訓練および微調整段階における適応性を著しく向上させることがわかった。
MSR-VTT, DiDeMo, LSMDC, Kinetics-400, Something-Something-2, HMDB-51, UCF-101, AVA など,様々な下流データセットに対する最先端のゼロショットおよび微調整結果が得られた。
さらに,事前学習したMug-STANとマルチモーダル対話モデルを統合することで,ゼロショットビデオチャットを実現する。
コードはhttps://github.com/farewellthree/stanで入手できる。
関連論文リスト
- Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。
本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。
本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-03T08:15:39Z) - mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image
and Video [89.19867891570945]
mPLUG-2は、マルチモーダル事前訓練のためのモジュール化された設計を備えた新しい統一パラダイムである。
モダリティ協力のための共通普遍加群を共有し、モダリティの絡み合いを扱うために異なるモダリティ加群を切り離す。
テキスト、画像、ビデオを含むすべてのモダリティの異なる理解タスクと生成タスクのために、異なるモジュールを選択することは柔軟です。
論文 参考訳(メタデータ) (2023-02-01T12:40:03Z) - Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge
Transferring [82.84513669453744]
画像テキスト事前訓練モデル(例えばCLIP)は、大規模な画像テキストデータペアから学んだ、印象的な汎用マルチモーダル知識を示している。
画像間知識伝達の文脈における時間的モデリングを再考する。
本稿では,CLIPモデルを多様なビデオタスクに拡張する簡易かつ効果的な時間的モデリング機構を提案する。
論文 参考訳(メタデータ) (2023-01-26T14:12:02Z) - Grafting Pre-trained Models for Multimodal Headline Generation [12.063053852096514]
マルチモーダルヘッドラインはビデオフレームと書き起こしの両方を利用して、ビデオの自然言語タイトルを生成する。
事前学習された言語モデルとビデオ言語モデルに関するこれまでの研究は、下流タスクにおいて大きな進歩を遂げた。
本稿では,ビデオエンコーダを生成前学習言語モデル上に事前学習したビデオ言語モデルから移植する手法を提案する。
論文 参考訳(メタデータ) (2022-11-14T08:59:59Z) - LiteVL: Efficient Video-Language Learning with Enhanced Spatial-Temporal
Modeling [48.283659682112926]
本稿では,事前学習した画像言語モデルBLIPを,下流タスク上で直接ビデオテキストモデルに適応させるLiteVLを提案する。
また、テキスト上に埋め込まれた微細なビデオ埋め込み条件を適応的に重み付けする非パラメトリックプーリング機構を提案する。
論文 参考訳(メタデータ) (2022-10-21T13:03:49Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。