論文の概要: Learning Transferable Spatiotemporal Representations from Natural Script
Knowledge
- arxiv url: http://arxiv.org/abs/2209.15280v1
- Date: Fri, 30 Sep 2022 07:39:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 14:32:48.957857
- Title: Learning Transferable Spatiotemporal Representations from Natural Script
Knowledge
- Title(参考訳): 自然文字知識による時空間表現の学習
- Authors: Ziyun Zeng, Yuying Ge, Xihui Liu, Bin Chen, Ping Luo, Shu-Tao Xia,
Yixiao Ge
- Abstract要約: 本稿では,ASR(TVTS)のためのビデオトランスクリプト(Turning to Video Transcript for ASR)を提案する。
この利点により、我々のモデルは人間のように起きていることを文脈化し、現実世界の大規模未計算ビデオデータにシームレスに適用することができる。
- 参考スコア(独自算出の注目度): 65.40899722211726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-training on large-scale video data has become a common recipe for
learning transferable spatiotemporal representations in recent years. Despite
some progress, existing methods are mostly limited to highly curated datasets
(e.g., K400) and exhibit unsatisfactory out-of-the-box representations. We
argue that it is due to the fact that they only capture pixel-level knowledge
rather than spatiotemporal commonsense, which is far away from cognition-level
video understanding. Inspired by the great success of image-text pre-training
(e.g., CLIP), we take the first step to exploit language semantics to boost
transferable spatiotemporal representation learning. We introduce a new pretext
task, Turning to Video for Transcript Sorting (TVTS), which sorts shuffled ASR
scripts by attending to learned video representations. We do not rely on
descriptive captions and learn purely from video, i.e., leveraging the natural
transcribed speech knowledge to provide noisy but useful semantics over time.
Furthermore, rather than the simple concept learning in vision-caption
contrast, we encourage cognition-level temporal commonsense reasoning via
narrative reorganization. The advantages enable our model to contextualize what
is happening like human beings and seamlessly apply to large-scale uncurated
video data in the real world. Note that our method differs from ones designed
for video-text alignment (e.g., Frozen) and multimodal representation learning
(e.g., Merlot). Our method demonstrates strong out-of-the-box spatiotemporal
representations on diverse video benchmarks, e.g., +13.6% gains over VideoMAE
on SSV2 via linear probing.
- Abstract(参考訳): 近年,大規模なビデオデータの事前学習が,転送可能な時空間表現の学習の一般的な方法となっている。
ある程度の進歩にもかかわらず、既存の方法はほとんど高度にキュレートされたデータセット(例えばk400)に制限され、不十分なアウト・オブ・ボックス表現を示す。
認識レベルのビデオ理解とは程遠い時空間的常識ではなく,ピクセルレベルの知識のみを捉えているという事実が原因である,と我々は主張する。
画像テキストの事前学習(クリップなど)の成功に触発されて、言語セマンティクスを利用して時空間表現学習を促進する第一歩を踏み出した。
そこで我々は,学習したビデオ表現に参画することで,ASRスクリプトをシャッフルするTurning to Video for Transcript Sorting (TVTS)という,新しいプレテキストタスクを導入した。
我々は記述的なキャプションに頼らず、ビデオから純粋に学習する。すなわち、自然な書き起こされた音声知識を活用して、時間とともに騒々しく、有用な意味論を提供する。
さらに,視覚獲得コントラストにおける単純な概念学習よりも,ナラティブ再編成による認知レベルの時空間常識推論を奨励する。
その利点は、私たちのモデルが人間のように起きていることをコンテキスト化し、現実世界の大規模な未解決ビデオデータにシームレスに適用できることです。
本手法はビデオテキストアライメント(例:フリーズ)やマルチモーダル表現学習(例:merlot)のために設計されたものとは異なる。
提案手法は, 多様なビデオベンチマークにおいて, SSV2 上のビデオMAE よりも高率な時空間表現が線形探索により得られることを示す。
関連論文リスト
- MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。
既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。
この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。
本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文 参考訳(メタデータ) (2024-06-25T18:39:43Z) - Contrastive Language Video Time Pre-training [12.876308881183371]
本稿では,コントラスト学習による長文ビデオにおける言語,ビデオ,時間表現の新たな学習手法であるLAVITIを紹介する。
我々のモデルは、学習可能なモーメントクエリを用いて、クリップレベルの視覚的特徴、言語的特徴、時間的特徴をデコードする。
本手法をCharadesEgo行動認識に応用し,最先端の結果を得た。
論文 参考訳(メタデータ) (2024-06-04T02:48:59Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Tem-adapter: Adapting Image-Text Pretraining for Video Question Answer [79.20605034378187]
ビデオ言語事前学習モデルは、ビデオ質問応答タスクの指導において顕著な成功を収めている。
ビデオシーケンスの長さのため、大規模なビデオベースモデルのトレーニングは、画像ベースモデルのトレーニングよりもかなりコストがかかる。
これは、画像ドメインとビデオドメインの間に明らかなギャップがあるにもかかわらず、画像ベースの事前学習からの知識を活用する動機となります。
論文 参考訳(メタデータ) (2023-08-16T15:00:50Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - Scalable and Accurate Self-supervised Multimodal Representation Learning
without Aligned Video and Text Data [18.479220305684837]
画像キャプションの最近の進歩により、並列なビデオテキストデータなしで高品質な映像モデルを事前訓練することが可能になった。
既存のHowTo100M ASRキャプションよりも,イメージキャプションの擬似ラベルが事前学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-04T19:11:05Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。