論文の概要: Video-Text Representation Learning via Differentiable Weak Temporal
Alignment
- arxiv url: http://arxiv.org/abs/2203.16784v1
- Date: Thu, 31 Mar 2022 04:13:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 15:02:55.845241
- Title: Video-Text Representation Learning via Differentiable Weak Temporal
Alignment
- Title(参考訳): 微分弱時間アライメントによるビデオテキスト表現学習
- Authors: Dohwan Ko, Joonmyung Choi, Juyeon Ko, Shinyeong Noh, Kyoung-Woon On,
Eun-Sol Kim, Hyunwoo J. Kim
- Abstract要約: 教師付き手法でビデオとテキストの汎用的な共同表現を学習するには、大量の手動注釈付きビデオデータセットが必要である。
あいまいさと非順序的なアライメントのため、ビデオとテキストの共同埋め込みを自己指導的に学ぶことは依然として困難である。
本稿では,VT-TWINS (Video-Text Temporally Weak Alignment-based Contrastive Learning) を提案する。
- 参考スコア(独自算出の注目度): 11.967313324773668
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning generic joint representations for video and text by a supervised
method requires a prohibitively substantial amount of manually annotated video
datasets. As a practical alternative, a large-scale but uncurated and narrated
video dataset, HowTo100M, has recently been introduced. But it is still
challenging to learn joint embeddings of video and text in a self-supervised
manner, due to its ambiguity and non-sequential alignment. In this paper, we
propose a novel multi-modal self-supervised framework Video-Text Temporally
Weak Alignment-based Contrastive Learning (VT-TWINS) to capture significant
information from noisy and weakly correlated data using a variant of Dynamic
Time Warping (DTW). We observe that the standard DTW inherently cannot handle
weakly correlated data and only considers the globally optimal alignment path.
To address these problems, we develop a differentiable DTW which also reflects
local information with weak temporal alignment. Moreover, our proposed model
applies a contrastive learning scheme to learn feature representations on
weakly correlated data. Our extensive experiments demonstrate that VT-TWINS
attains significant improvements in multi-modal representation learning and
outperforms various challenging downstream tasks. Code is available at
https://github.com/mlvlab/VT-TWINS.
- Abstract(参考訳): 教師付き手法でビデオとテキストの汎用的な共同表現を学習するには、手動で注釈付けされたビデオデータセットの膨大な量が必要となる。
実用的な代替手段として、大規模だが未修正かつナレーション付きビデオデータセットであるHowTo100Mが最近導入された。
しかし、あいまいさと非順序的なアライメントのため、ビデオとテキストの共同埋め込みを自己管理的に学ぶことは依然として困難である。
本稿では,VT-TWINS(VT-TWINS)を用いて,動的時間ワープ(DTW)の変種を用いて,雑音や相関の弱いデータから重要な情報を抽出する手法を提案する。
標準DTWは本質的に相関の弱いデータを扱うことができず、グローバルな最適アライメントパスのみを考慮する。
これらの問題に対処するため,時間的アライメントの弱い局所情報を反映した微分可能DTWを開発した。
さらに,本モデルでは,弱相関データに対する特徴表現の学習に対比学習手法を適用する。
本稿では,VT-TWINSがマルチモーダル表現学習の大幅な改善を実現し,下流の課題に優れることを示す。
コードはhttps://github.com/mlvlab/VT-TWINSで入手できる。
関連論文リスト
- Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial
Margin Contrastive Learning [35.404100473539195]
テキストビデオ検索は、関係のないものよりも関連のあるテキストや動画をランク付けすることを目的としている。
最近のコントラスト学習手法は,テキストビデオ検索に有望な結果を示している。
本稿では2つの新しい手法を用いてコントラスト学習を改善する。
論文 参考訳(メタデータ) (2023-09-20T06:08:11Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - Learning from Semantic Alignment between Unpaired Multiviews for
Egocentric Video Recognition [23.031934558964473]
本稿では,セマンティックスをベースとしたUnpaired Multiview Learning (SUM-L)を提案する。
主要なアイデアは、ビデオの意味情報を活用することで、クロスビューの擬似ペアを構築し、ビュー不変アライメントを行うことである。
また,本手法は,より難易度の高いシナリオ下で,既存のビューアライメント手法よりも優れている。
論文 参考訳(メタデータ) (2023-08-22T15:10:42Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Weakly-supervised Representation Learning for Video Alignment and
Analysis [16.80278496414627]
本稿では,新しい表現学習手法LRPropを紹介する。
提案アルゴリズムは、学習した特徴をよりよくチューニングするために、正規化されたSoftDTW損失も利用する。
我々の新しい表現学習パラダイムは、時間的アライメントタスクにおける技術の現状を一貫して上回ります。
論文 参考訳(メタデータ) (2023-02-08T14:01:01Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。