論文の概要: Learning Fine-Grained Visual Understanding for Video Question Answering
via Decoupling Spatial-Temporal Modeling
- arxiv url: http://arxiv.org/abs/2210.03941v1
- Date: Sat, 8 Oct 2022 07:03:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 14:39:19.279438
- Title: Learning Fine-Grained Visual Understanding for Video Question Answering
via Decoupling Spatial-Temporal Modeling
- Title(参考訳): 空間時間モデリングのデカップリングによるビデオ質問応答の微視的理解
- Authors: Hsin-Ying Lee, Hung-Ting Su, Bing-Chen Tsai, Tsung-Han Wu, Jia-Fong
Yeh, Winston H. Hsu
- Abstract要約: 空間的時間的モデリングを分離し、画像とビデオ言語を統合して、きめ細かい視覚的理解を学習する。
本稿では,ビデオシーケンス中の事象の時間的位置を特定することを必要とする,新たな事前学習対象であるテンポラル参照モデリングを提案する。
我々のモデルは、桁違いの大きなデータセットで事前訓練された以前の作業より優れています。
- 参考スコア(独自算出の注目度): 28.530765643908083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While recent large-scale video-language pre-training made great progress in
video question answering, the design of spatial modeling of video-language
models is less fine-grained than that of image-language models; existing
practices of temporal modeling also suffer from weak and noisy alignment
between modalities. To learn fine-grained visual understanding, we decouple
spatial-temporal modeling and propose a hybrid pipeline, Decoupled
Spatial-Temporal Encoders, integrating an image- and a video-language encoder.
The former encodes spatial semantics from larger but sparsely sampled frames
independently of time, while the latter models temporal dynamics at lower
spatial but higher temporal resolution. To help the video-language model learn
temporal relations for video QA, we propose a novel pre-training objective,
Temporal Referring Modeling, which requires the model to identify temporal
positions of events in video sequences. Extensive experiments demonstrate that
our model outperforms previous work pre-trained on orders of magnitude larger
datasets.
- Abstract(参考訳): 最近の大規模ビデオ言語事前学習はビデオ質問応答において大きな進歩を遂げたが、映像言語モデルの空間モデリングの設計は画像言語モデルよりも細粒度が低い。
微粒な視覚的理解を学習するために、空間時間モデルとハイブリッドパイプライン、デカップリング空間時間エンコーダを提案し、画像とビデオ言語エンコーダを統合する。
前者は時間とは独立に大きめにサンプリングされたフレームから空間的意味論を符号化し、後者は低い空間的かつ高い時間的解像度で時間的ダイナミクスをモデル化する。
ビデオQAにおける時間的関係の学習を支援するために,ビデオシーケンス中の事象の時間的位置を特定することを必要とする,新たな事前学習対象である時間的参照モデリングを提案する。
広範な実験によって、我々のモデルは、大きなデータセットのオーダーで事前トレーニングされた以前の作業よりも優れています。
関連論文リスト
- ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation [81.90265212988844]
本稿では,プラグイン・アンド・プレイ方式で生成ビデオモデルを作成するためのトレーニング不要なビデオ手法を提案する。
我々は,映像モデルを隠れ状態補正モジュールを備えた自己カスケード映像拡散モデルに変換する。
私たちのトレーニングフリーの手法は、巨大な計算リソースと大規模データセットによってサポートされているトレーニングモデルにさえ匹敵するものです。
論文 参考訳(メタデータ) (2024-06-03T00:31:13Z) - Lumiere: A Space-Time Diffusion Model for Video Generation [75.54967294846686]
本研究では,一度にビデオ全体の時間的持続時間を生成する空間時間U-Netアーキテクチャを提案する。
これは、遠方から後続の時間超解像を合成する既存のビデオモデルとは対照的である。
空間的および(重要な)時間的ダウンサンプリングとアップサンプリングの両方をデプロイすることで、我々のモデルは、フルフレームレートで低解像度のビデオを直接生成することを学ぶ。
論文 参考訳(メタデータ) (2024-01-23T18:05:25Z) - Disentangling Spatial and Temporal Learning for Efficient Image-to-Video
Transfer Learning [59.26623999209235]
ビデオの空間的側面と時間的側面の学習を両立させるDiSTを提案する。
DiSTの非絡み合い学習は、大量の事前学習パラメータのバックプロパゲーションを避けるため、非常に効率的である。
5つのベンチマークの大規模な実験は、DiSTが既存の最先端メソッドよりも優れたパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2023-09-14T17:58:33Z) - Orthogonal Temporal Interpolation for Zero-Shot Video Recognition [45.53856045374685]
ゼロショットビデオ認識(ゼロショットビデオ認識、ZSVR)は、モデルトレーニングプロセス中に見たことのないビデオカテゴリの認識を目的としたタスクである。
近年の視覚言語モデル (VLM) は, 大規模画像テキストペアで事前訓練されている。
論文 参考訳(メタデータ) (2023-08-14T02:26:49Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - LiteVL: Efficient Video-Language Learning with Enhanced Spatial-Temporal
Modeling [48.283659682112926]
本稿では,事前学習した画像言語モデルBLIPを,下流タスク上で直接ビデオテキストモデルに適応させるLiteVLを提案する。
また、テキスト上に埋め込まれた微細なビデオ埋め込み条件を適応的に重み付けする非パラメトリックプーリング機構を提案する。
論文 参考訳(メタデータ) (2022-10-21T13:03:49Z) - Simple Video Generation using Neural ODEs [9.303957136142293]
我々は、潜在空間の将来を予測する潜在変数モデルを学び、ピクセルに投影する。
1桁と2桁の移動MNISTデータセットにおける将来のフレーム予測のタスクにおいて,提案手法が有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2021-09-07T19:03:33Z) - StyleVideoGAN: A Temporal Generative Model using a Pretrained StyleGAN [70.31913835035206]
本稿では,映像合成問題に対する新しいアプローチを提案する。
トレーニング済みのStyleGANネットワークを利用することで、トレーニング対象の外観を制御できます。
我々の時間的アーキテクチャは、RGBフレームのシーケンスではなく、StyleGANの潜在符号のシーケンスに基づいて訓練される。
論文 参考訳(メタデータ) (2021-07-15T09:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。