論文の概要: Weakly Supervised Video Representation Learning with Unaligned Text for
Sequential Videos
- arxiv url: http://arxiv.org/abs/2303.12370v2
- Date: Tue, 28 Mar 2023 04:43:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 18:14:30.317733
- Title: Weakly Supervised Video Representation Learning with Unaligned Text for
Sequential Videos
- Title(参考訳): シーケンスビデオのためのアンアライメントテキストを用いた弱教師付きビデオ表現学習
- Authors: Sixun Dong, Huazhang Hu, Dongze Lian, Weixin Luo, Yicheng Qian,
Shenghua Gao
- Abstract要約: 本稿では,時間レベルのテキスト・ビデオの正確なアライメントが提供されないような逐次的ビデオ理解について検討する。
我々は、ビデオ表現のためのフレームレベルの特徴を集約するためにトランスフォーマーを使用し、事前訓練されたテキストエンコーダを使用して、各アクションとビデオ全体に対応するテキストをエンコードする。
ビデオシーケンス検証とテキスト・ツー・ビデオマッチングの実験により,本手法がベースラインをはるかに上回ることを示す。
- 参考スコア(独自算出の注目度): 39.42509966219001
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequential video understanding, as an emerging video understanding task, has
driven lots of researchers' attention because of its goal-oriented nature. This
paper studies weakly supervised sequential video understanding where the
accurate time-stamp level text-video alignment is not provided. We solve this
task by borrowing ideas from CLIP. Specifically, we use a transformer to
aggregate frame-level features for video representation and use a pre-trained
text encoder to encode the texts corresponding to each action and the whole
video, respectively. To model the correspondence between text and video, we
propose a multiple granularity loss, where the video-paragraph contrastive loss
enforces matching between the whole video and the complete script, and a
fine-grained frame-sentence contrastive loss enforces the matching between each
action and its description. As the frame-sentence correspondence is not
available, we propose to use the fact that video actions happen sequentially in
the temporal domain to generate pseudo frame-sentence correspondence and
supervise the network training with the pseudo labels. Extensive experiments on
video sequence verification and text-to-video matching show that our method
outperforms baselines by a large margin, which validates the effectiveness of
our proposed approach. Code is available at https://github.com/svip-lab/WeakSVR
- Abstract(参考訳): シーケンシャルビデオ理解は、新たなビデオ理解タスクとして、ゴール指向の性質から多くの研究者の注目を集めている。
本稿では,正確なタイムスタンプレベルのテキスト・ビデオアライメントが提供されないような逐次的ビデオ理解について検討する。
私たちはこの課題をCLIPからアイデアを借りて解決する。
具体的には,映像表現のためのフレームレベル特徴の集約にトランスフォーマを使用して,予め学習したテキストエンコーダを使用して,各アクションとビデオ全体に対応するテキストをエンコードする。
テキストと映像の対応をモデル化するために,ビデオ・パラグラフのコントラストロスが全映像と全スクリプトのマッチングを強制し,細粒度フレーム・センスのコントラストロスが各アクションとその記述とのマッチングを強制する多粒度損失を提案する。
フレーム・センテンス対応が利用できないため、ビデオアクションが時間領域内で順次発生するという事実を利用して疑似フレーム・センテンス対応を生成し、ネットワークトレーニングを疑似ラベルで監督する。
ビデオシーケンス検証とテキスト・ツー・ビデオマッチングの大規模な実験により,提案手法はベースラインを大きなマージンで上回り,提案手法の有効性を検証した。
コードはhttps://github.com/svip-lab/WeakSVRで入手できる。
関連論文リスト
- OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。
これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。
このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文 参考訳(メタデータ) (2024-03-26T17:59:24Z) - Text-Video Retrieval via Variational Multi-Modal Hypergraph Networks [25.96897989272303]
テキストビデオ検索の主な障害は、クエリのテキストの性質とビデオコンテンツの視覚的豊かさとのセマンティックなギャップである。
本稿では,クエリチャンクを抽出して,特定の検索単位を記述するチャンクレベルのテキストビデオマッチングを提案する。
クェリの単語とビデオのフレーム間のn-ary相関モデルとしてチャンクレベルのマッチングを定式化する。
論文 参考訳(メタデータ) (2024-01-06T09:38:55Z) - Prompt Switch: Efficient CLIP Adaptation for Text-Video Retrieval [24.691270610091554]
本稿では,ビデオから意味的に強調された表現を純粋に学習し,ビデオ表現をオフラインで計算し,異なるテキストに対して再利用することを目的とする。
MSR-VTT, MSVD, LSMDCの3つのベンチマークデータセット上で, 最先端のパフォーマンスを得る。
論文 参考訳(メタデータ) (2023-08-15T08:54:25Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - TempCLR: Temporal Alignment Representation with Contrastive Learning [35.12182087403215]
本稿では,全ビデオと段落を明示的に比較するために,対照的な学習フレームワークであるTempCLRを提案する。
ビデオと段落の事前学習に加えて,ビデオインスタンス間のマッチングも一般化できる。
論文 参考訳(メタデータ) (2022-12-28T08:10:31Z) - Contrastive Video-Language Learning with Fine-grained Frame Sampling [54.542962813921214]
FineCoは、ビデオフレーム上で操作する微妙なコントラスト対象で、ビデオと言語表現をよりよく学習するアプローチである。
テキストと意味的に等価なフレームを選択することで、ビデオの削除を支援し、クロスモーダル対応を改善する。
論文 参考訳(メタデータ) (2022-10-10T22:48:08Z) - Video and Text Matching with Conditioned Embeddings [81.81028089100727]
本稿では,あるコーパスから与えられたビデオクリップにテキストをマッチングする方法と,その逆について述べる。
本研究では、クエリの関連情報を考慮し、データセットデータをエンコードする。
我々は、条件付き表現をビデオ誘導機械翻訳に転送し、VATEXの現在の結果を改善した。
論文 参考訳(メタデータ) (2021-10-21T17:31:50Z) - VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text
Understanding [13.640902299569008]
我々は、ゼロショットビデオとテキスト理解のための統一モデルを事前訓練するための対照的なアプローチであるVideoCLIPを提案する。
VideoCLIPは、ビデオとテキストの変換器を、近隣の検索から強陰性で時間的に重なり合うビデオテキストペアと対比することによって訓練する。
論文 参考訳(メタデータ) (2021-09-28T23:01:51Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。