論文の概要: Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding
- arxiv url: http://arxiv.org/abs/2403.11463v2
- Date: Tue, 14 May 2024 17:34:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 19:01:48.972594
- Title: Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding
- Title(参考訳): 弱教師付きビデオパラグラフグラウンドにおける共同アライメントと回帰を用いたシームズ学習
- Authors: Chaolei Tan, Jianhuang Lai, Wei-Shi Zheng, Jian-Fang Hu,
- Abstract要約: ビデオ段落の接頭辞は、意味的関係と時間的順序を持つ複数の文を、トリミングされていないビデオからローカライズすることを目的としている。
既存のVPGアプローチは、かなりの数の時間ラベルに大きく依存している。
我々は、時間的アノテーションの必要性を排除するために、Wakly-Supervised Video paragraph Grounding (WSVPG)を導入し、探索する。
- 参考スコア(独自算出の注目度): 70.31050639330603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Paragraph Grounding (VPG) is an emerging task in video-language understanding, which aims at localizing multiple sentences with semantic relations and temporal order from an untrimmed video. However, existing VPG approaches are heavily reliant on a considerable number of temporal labels that are laborious and time-consuming to acquire. In this work, we introduce and explore Weakly-Supervised Video Paragraph Grounding (WSVPG) to eliminate the need of temporal annotations. Different from previous weakly-supervised grounding frameworks based on multiple instance learning or reconstruction learning for two-stage candidate ranking, we propose a novel siamese learning framework that jointly learns the cross-modal feature alignment and temporal coordinate regression without timestamp labels to achieve concise one-stage localization for WSVPG. Specifically, we devise a Siamese Grounding TRansformer (SiamGTR) consisting of two weight-sharing branches for learning complementary supervision. An Augmentation Branch is utilized for directly regressing the temporal boundaries of a complete paragraph within a pseudo video, and an Inference Branch is designed to capture the order-guided feature correspondence for localizing multiple sentences in a normal video. We demonstrate by extensive experiments that our paradigm has superior practicability and flexibility to achieve efficient weakly-supervised or semi-supervised learning, outperforming state-of-the-art methods trained with the same or stronger supervision.
- Abstract(参考訳): ビデオ・パラグラフ・グラウンディング(VPG)はビデオ言語理解における新たな課題であり、意味的関係と時間的順序を持つ複数の文を非トリミングビデオからローカライズすることを目的としている。
しかし、既存のVPGアプローチは、かなりの数の時間ラベルに大きく依存している。
本稿では,WSVPG(Weakly-Supervised Video Paragraph Grounding)を導入し,時間的アノテーションの必要性を排除する。
複数段階の候補ランキングのための複数段階のインスタンス学習や再構成学習に基づく従来の弱教師付き基盤フレームワークとは違い,WSVPGの簡潔な1段階のローカライゼーションを実現するために,タイムスタンプラベルを使わずに,クロスモーダルな特徴アライメントと時間的座標回帰を共同で学習する新しいサイムズ学習フレームワークを提案する。
具体的には,2つの重み分担分枝からなるシームズグラウンドディングTRansformer(SiamGTR)を考案し,補完的な監督を学習する。
拡張ブランチは、擬似ビデオ内の完全段落の時間的境界を直接回帰するために利用され、推論ブランチは、通常のビデオ内の複数の文をローカライズするための順序付き特徴対応をキャプチャするように設計されている。
より広範な実験により、我々のパラダイムは、弱教師付きあるいは半教師付き学習を効果的に達成し、同じまたはより強い監督で訓練された最先端の手法よりも優れた実践性と柔軟性を有することを示した。
関連論文リスト
- Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Self-supervised and Weakly Supervised Contrastive Learning for
Frame-wise Action Representations [26.09611987412578]
本稿では,フレームワイドな行動表現を自己監督的あるいは弱監督的に学習するための,コントラッシブ・アクション表現学習(CARL)の枠組みを紹介する。
具体的には,空間的コンテキストと時間的コンテキストの両方を考慮した,シンプルだが効果的なビデオエンコーダを提案する。
提案手法は,下流の微細な動作分類とより高速な推論において,従来の最先端技術よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-06T16:42:22Z) - Fine-grained Semantic Alignment Network for Weakly Supervised Temporal
Language Grounding [148.46348699343991]
時間的言語接地は、自然言語記述に基づいてビデオセグメントを未編集ビデオにローカライズすることを目的としている。
既存の弱教師付きメソッドのほとんどは、候補セグメントを生成し、MILベースのフレームワークを通じて、相互アライメントを学ぶ。
我々は、弱い教師付きTLGのための新しい候補のないフレームワーク、細粒度セマンティックアライメントネットワーク(FSAN)を提案する。
論文 参考訳(メタデータ) (2022-10-21T13:10:27Z) - Boundary-aware Self-supervised Learning for Video Scene Segmentation [20.713635723315527]
シーンセグメンテーション(英: Video scene segmentation)は、ビデオ内のシーン境界を時間的に局所化するタスクである。
本稿では,3つの境界対応プレテキストタスク,ショットシーンマッチング,コンテキストグループマッチング,擬似境界予測を紹介する。
我々はMovieNet-SSegベンチマークの最先端性を実現する。
論文 参考訳(メタデータ) (2022-01-14T02:14:07Z) - Weakly-Supervised Spatio-Temporal Anomaly Detection in Surveillance
Video [128.41392860714635]
Weakly-Supervised Snoma-Temporally Detection (WSSTAD) を監視ビデオに導入する。
WSSTADは異常事象を封止する時空間管(すなわち連続する境界ボックスのシーケンス)をローカライズすることを目的としている。
本稿では,空間的・時間的領域に複数粒度を持つ入力提案を行うデュアルブランチネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-09T06:11:14Z) - Weakly Supervised Temporal Adjacent Network for Language Grounding [96.09453060585497]
本稿では,時間的言語接地のための新しい教師付き時間的隣接ネットワーク(WSTAN)を提案する。
WSTANは、複数のインスタンス学習(MIL)パラダイムにおいて、時間的隣接ネットワークを活用することで、モーダル間のセマンティックアライメントを学習する。
MILブランチと補完ブランチの両方で、自己監督による意味的識別を強化するために、追加の自己識別損失が考案された。
論文 参考訳(メタデータ) (2021-06-30T15:42:08Z) - Learning by Aligning Videos in Time [10.075645944474287]
本稿では,時間的映像アライメントを前提課題として,映像表現を学習するための自己教師型アプローチを提案する。
我々は、エンコーダネットワークをトレーニングするための監視信号として使用できる、時間的アライメント損失と時間的正規化項の新たな組み合わせを利用する。
論文 参考訳(メタデータ) (2021-03-31T17:55:52Z) - Weak Supervision and Referring Attention for Temporal-Textual
Association Learning [35.469984595398905]
時間とテクストの関連性(WSRA)を学習するための弱スーパービジョンの代替案を提案する。
弱い監督は、単にビデオレベルでのテキスト表現であり、このビデオが関連するフレームを含んでいることを示している。
参照注意は、フレーム上の与えられたクエリを時間的にグラウンド化するためのスコアリング機能として機能する、我々の設計メカニズムである。
言語による時間的接地のための広範囲な実験を通じて、WSRAを検証し、最先端の弱い教師付き手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-21T09:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。