論文の概要: Multi-Scale Self-Contrastive Learning with Hard Negative Mining for
Weakly-Supervised Query-based Video Grounding
- arxiv url: http://arxiv.org/abs/2203.03838v1
- Date: Tue, 8 Mar 2022 04:01:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 13:13:42.517022
- Title: Multi-Scale Self-Contrastive Learning with Hard Negative Mining for
Weakly-Supervised Query-based Video Grounding
- Title(参考訳): 弱改良クエリに基づくビデオグラウンドニングのためのハードネガティブマイニングによるマルチスケールセルフコントラスト学習
- Authors: Shentong Mo, Daizong Liu, Wei Hu
- Abstract要約: 本稿では,弱教師付き環境下での問合せに基づくビデオグラウンド処理に対処するための自己コントラスト学習フレームワークを提案する。
まず,クエリのセマンティクスを参照するフレームワイドマッチングスコアを学習し,前景フレームを予測できる新しいグラウンド方式を提案する。
第二に、予測されたフレームは比較的粗いので、隣接するフレームに類似した外観を示すため、粗いから微妙な対照的な学習パラダイムを提案する。
- 参考スコア(独自算出の注目度): 27.05117092371221
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Query-based video grounding is an important yet challenging task in video
understanding, which aims to localize the target segment in an untrimmed video
according to a sentence query. Most previous works achieve significant progress
by addressing this task in a fully-supervised manner with segment-level labels,
which require high labeling cost. Although some recent efforts develop
weakly-supervised methods that only need the video-level knowledge, they
generally match multiple pre-defined segment proposals with query and select
the best one, which lacks fine-grained frame-level details for distinguishing
frames with high repeatability and similarity within the entire video. To
alleviate the above limitations, we propose a self-contrastive learning
framework to address the query-based video grounding task under a
weakly-supervised setting. Firstly, instead of utilizing redundant segment
proposals, we propose a new grounding scheme that learns frame-wise matching
scores referring to the query semantic to predict the possible foreground
frames by only using the video-level annotations. Secondly, since some
predicted frames (i.e., boundary frames) are relatively coarse and exhibit
similar appearance to their adjacent frames, we propose a coarse-to-fine
contrastive learning paradigm to learn more discriminative frame-wise
representations for distinguishing the false positive frames. In particular, we
iteratively explore multi-scale hard negative samples that are close to
positive samples in the representation space for distinguishing fine-grained
frame-wise details, thus enforcing more accurate segment grounding. Extensive
experiments on two challenging benchmarks demonstrate the superiority of our
proposed method compared with the state-of-the-art methods.
- Abstract(参考訳): 問合せに基づくビデオグラウンドイングは、ビデオ理解において重要な課題であるが、文クエリに従って、未編集のビデオにターゲットセグメントをローカライズすることを目的としている。
以前の作品の多くは、セグメントレベルのラベルで完全に監督された方法でこの課題に対処し、高いラベリングコストを必要としている。
近年では、ビデオレベルの知識のみを必要とする弱い教師付き手法が開発されているが、一般的には、事前定義された複数のセグメント提案とクエリとベストセグメントの選択にマッチする。
上記の制約を緩和するため,我々は,弱教師付き環境下での問合せ型ビデオグラウンドングタスクに対処するための自己結合型学習フレームワークを提案する。
まず,冗長セグメント提案を利用する代わりに,問合せセマンティクスを参照してフレーム毎のマッチングスコアを学習し,ビデオレベルのアノテーションのみを用いてフォアグラウンドフレームを予測できる新しいグラウンド方式を提案する。
第二に、予測フレーム(境界フレーム)は比較的粗いので、隣接するフレームに類似した外観を示すため、偽陽性フレームを識別するためのより識別的なフレームワイド表現を学習するための粗いから微細なコントラスト学習パラダイムを提案する。
特に、細粒度フレームの細部を識別するために、表現空間の正のサンプルに近いマルチスケールのハードネガティブサンプルを反復的に探索し、より正確なセグメントグラウンドを強制する。
2つの挑戦的ベンチマークによる大規模な実験により,提案手法が最先端手法よりも優れていることを示す。
関連論文リスト
- Multi-View Video-Based Learning: Leveraging Weak Labels for Frame-Level Perception [1.5741307755393597]
本稿では,フレームレベルの認識に弱いラベルを持つビデオベースの行動認識モデルを訓練するための新しい学習フレームワークを提案する。
弱いラベルを用いてモデルを訓練するために,新しい潜在損失関数を提案する。
また、下流フレームレベルの行動認識および検出タスクにビュー固有の潜伏埋め込みを利用するモデルを提案する。
論文 参考訳(メタデータ) (2024-03-18T09:47:41Z) - Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding [70.31050639330603]
ビデオ段落の接頭辞は、意味的関係と時間的順序を持つ複数の文を、トリミングされていないビデオからローカライズすることを目的としている。
既存のVPGアプローチは、かなりの数の時間ラベルに大きく依存している。
我々は、時間的アノテーションの必要性を排除するために、Wakly-Supervised Video paragraph Grounding (WSVPG)を導入し、探索する。
論文 参考訳(メタデータ) (2024-03-18T04:30:31Z) - SSVOD: Semi-Supervised Video Object Detection with Sparse Annotations [12.139451002212063]
SSVODはビデオのモーションダイナミクスを利用して、スパースアノテーション付き大規模未ラベルフレームを利用する。
提案手法は,ImageNet-VID, Epic-KITCHENS, YouTube-VISの既存手法に比べて,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2023-09-04T06:41:33Z) - Search-Map-Search: A Frame Selection Paradigm for Action Recognition [21.395733318164393]
フレーム選択は、最も情報的で代表的なフレームを抽出して、モデルがビデオコンテンツをよりよく理解できるようにする。
既存のフレーム選択方法は、フレーム単位の重要度予測に基づいて、個別にフレームをサンプリングするか、あるいは、強化学習エージェントを用いて、代表フレームを逐次検索する。
本稿では,検索と教師付き学習の利点を組み合わせた検索-マップ-検索学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-20T13:49:53Z) - Rethinking the Video Sampling and Reasoning Strategies for Temporal
Sentence Grounding [64.99924160432144]
時間的文グラウンドディング(TSG)は、特定のセグメントの時間的境界を文問合せによってビデオから識別することを目的としている。
本稿では,TSG のための新しいサイムズサンプリング・推論ネットワーク (SSRN) を提案し,シムズサンプリング機構を導入し,追加のコンテキストフレームを生成する。
論文 参考訳(メタデータ) (2023-01-02T03:38:22Z) - Contrastive Losses Are Natural Criteria for Unsupervised Video
Summarization [27.312423653997087]
ビデオの要約は、ビデオ内の最も情報に富むサブセットを選択して、効率的なビデオブラウジングを容易にすることを目的としている。
本稿では,局所的な相似性,グローバルな一貫性,一意性という,望ましいキーフレームを特徴とする3つの指標を提案する。
本研究は,事前学習した特徴を軽量なプロジェクションモジュールで洗練することにより,フレームレベルの重要度をさらに向上できることを示す。
論文 参考訳(メタデータ) (2022-11-18T07:01:28Z) - Joint Inductive and Transductive Learning for Video Object Segmentation [107.32760625159301]
半教師付きオブジェクトセグメンテーションは、第1フレームのマスクだけを与えられたビデオシーケンスで対象オブジェクトをセグメンテーションするタスクである。
過去の最も優れた手法は、マッチングベースの帰納的推論やオンライン帰納的学習を採用していた。
本稿では,トランスダクティブ学習とインダクティブ学習を統合したフレームワークに統合し,それら間の補完を利用して,高精度かつ堅牢なビデオオブジェクトセグメンテーションを提案する。
論文 参考訳(メタデータ) (2021-08-08T16:25:48Z) - Learning to Track Instances without Video Annotations [85.9865889886669]
本稿では,ラベル付き画像データセットとラベルなしビデオシーケンスのみを用いたインスタンス追跡ネットワークを学習する,新しい半教師付きフレームワークを提案する。
画像のみを訓練しても,学習した特徴表現は出現の変動にロバストであることが判明した。
さらに、このモジュールを単一ステージのインスタンスセグメンテーションとポーズ推定フレームワークに統合します。
論文 参考訳(メタデータ) (2021-04-01T06:47:41Z) - Temporally-Weighted Hierarchical Clustering for Unsupervised Action
Segmentation [96.67525775629444]
アクションセグメンテーションとは、ビデオにおける意味的に一貫した視覚概念の境界を推測することを指す。
ビデオ中のセグメンテーション動作に対して,トレーニングを必要としない完全自動かつ教師なしのアプローチを提案する。
提案手法は,ビデオの意味的に一貫性のあるフレームをグループ化できる効果的な時間重み付き階層クラスタリングアルゴリズムである。
論文 参考訳(メタデータ) (2021-03-20T23:30:01Z) - Look Closer to Ground Better: Weakly-Supervised Temporal Grounding of
Sentence in Video [53.69956349097428]
未トリミングビデオと問合せ文が与えられた場合、我々のゴールは、問合せ文に意味的に対応するビデオ内の時間セグメントをローカライズすることである。
本稿では,この問題を粗大な方法で解くための2段階モデルを提案する。
論文 参考訳(メタデータ) (2020-01-25T13:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。