論文の概要: Negative Sample Matters: A Renaissance of Metric Learning for Temporal
Grounding
- arxiv url: http://arxiv.org/abs/2109.04872v1
- Date: Fri, 10 Sep 2021 13:38:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-13 13:21:27.434874
- Title: Negative Sample Matters: A Renaissance of Metric Learning for Temporal
Grounding
- Title(参考訳): 負のサンプル: 時間的接地のための計量学習のルネサンス
- Authors: Zhenzhi Wang, Limin Wang, Tao Wu, Tianhao Li, Gangshan Wu
- Abstract要約: 時間的グラウンディングは、ある自然言語クエリに関連するセマンティクスを持つビデオ内のビデオモーメントを時間的にローカライズすることを目的としている。
共同埋め込み空間における言語クエリとビデオモーメントの関係をモデル化する2つのマッチングネットワーク(DMN)を提案する。
- 参考スコア(独自算出の注目度): 31.95817463923758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal grounding aims to temporally localize a video moment in the video
whose semantics are related to a given natural language query. Existing methods
typically apply a detection or regression pipeline on the fused representation
with a focus on designing complicated heads and fusion strategies. Instead,
from a perspective on temporal grounding as a metric-learning problem, we
present a Dual Matching Network (DMN), to directly model the relations between
language queries and video moments in a joint embedding space. This new
metric-learning framework enables fully exploiting negative samples from two
new aspects: constructing negative cross-modal pairs from a dual matching
scheme and mining negative pairs across different videos. These new negative
samples could enhance the joint representation learning of two modalities via
cross-modal pair discrimination to maximize their mutual information.
Experiments show that DMN achieves highly competitive performance compared with
state-of-the-art methods on four video grounding benchmarks. Based on DMN, we
present a winner solution for STVG challenge of the 3rd PIC workshop. This
suggests that metric-learning is still a promising method for temporal
grounding via capturing the essential cross-modal correlation in a joint
embedding space.
- Abstract(参考訳): 時間的接地は、ある自然言語クエリに関連する意味を持つビデオ内のビデオモーメントを時間的にローカライズすることを目的としている。
既存の手法は通常、複雑なヘッドと融合戦略の設計に焦点をあてて、融合表現に検出または回帰パイプラインを適用する。
代わりに,計量学習問題としての時間的接地という観点から,同時埋め込み空間における言語クエリとビデオモーメントの関係を直接モデル化する2重マッチングネットワーク(dmn)を提案する。
この新しいメトリック学習フレームワークでは,2つの新たな側面から負のサンプルを完全に活用することが可能だ。2つのマッチングスキームから負のクロスモーダルペアを構築し,異なるビデオ間で負のペアをマイニングする。
これらの新たな負のサンプルは、相互情報の最大化のために、クロスモーダルペア識別による2つのモードの合同表現学習を強化することができる。
実験により、DMNは4つのビデオグラウンドベンチマークの最先端手法と比較して高い競争力を発揮することが示された。
DMNに基づいて,第3回PICワークショップのSTVGチャレンジの勝者ソリューションを提案する。
このことは, 距離学習が, 結合埋め込み空間における重要な相互関係を捉えることによって, 時間的接地のための有望な手法であることを示唆している。
関連論文リスト
- Two-stream joint matching method based on contrastive learning for
few-shot action recognition [6.657975899342652]
コントラスト学習(TSJM)に基づく2ストリーム共同マッチング手法を提案する。
MCLの目的は、モーダル間の相互情報関係を広範囲に調査することである。
JMMは、上記のビデオマッチング問題を同時に解決することを目的としている。
論文 参考訳(メタデータ) (2024-01-08T13:37:15Z) - G2L: Semantically Aligned and Uniform Video Grounding via Geodesic and
Game Theory [70.75605157754771]
ジオデシック・ゲーム・ローカライゼーション(Geodesic and Game Localization, G2L)は,ジオデシック・ゲーム理論によるセマンティック・アライメントと均一なビデオグラウンドティング・フレームワークである。
本研究は,モデルが正しいクロスモーダル表現を学習するための測地距離を利用したモーメント間の相関関係を定量化する。
論文 参考訳(メタデータ) (2023-07-26T16:14:21Z) - Improving Video Retrieval by Adaptive Margin [18.326296132847332]
ビデオ検索の主流パラダイムは、正の対と負の対の類似性の間の距離を固定辺から切り離すことで、ビデオテキスト表現を学習する。
トレーニングに使用される負のペアはランダムにサンプリングされ、負のペア間のセマンティクスが関連あるいは等価であることを示している。
本稿では、上記の問題を解決するために、正対と負対の距離で変化した適応マージンを提案する。
論文 参考訳(メタデータ) (2023-03-09T08:07:38Z) - Hybrid Relation Guided Set Matching for Few-shot Action Recognition [51.3308583226322]
本稿では,2つの鍵成分を組み込んだHybrid Relation Guided Set Matching (HyRSM) 手法を提案する。
ハイブリッドリレーションモジュールの目的は、エピソード内の関連関係とクロスビデオの完全活用により、タスク固有の埋め込みを学習することである。
我々は,HyRSMを6つの挑戦的ベンチマークで評価した。
論文 参考訳(メタデータ) (2022-04-28T11:43:41Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Unpaired Referring Expression Grounding via Bidirectional Cross-Modal
Matching [53.27673119360868]
表現基盤の参照はコンピュータビジョンにおいて重要かつ困難な課題である。
本稿では,これらの課題に対処する新しい双方向クロスモーダルマッチング(BiCM)フレームワークを提案する。
私たちのフレームワークは、2つの一般的なグラウンドデータセットで、以前の作業の6.55%と9.94%を上回っています。
論文 参考訳(メタデータ) (2022-01-18T01:13:19Z) - End-to-End Dense Video Grounding via Parallel Regression [30.984657885692553]
ビデオグラウンドイングは、言語クエリが与えられた未トリミングビデオに対応するビデオモーメントをローカライズすることを目的としている。
本稿では,Transformer-alike Architecture (PRVG) を再構成することで,エンドツーエンドの並列デコーディングパラダイムを提案する。
設計の単純さのおかげで、私たちのPRVGフレームワークは異なるテストスキームに適用できます。
論文 参考訳(メタデータ) (2021-09-23T10:03:32Z) - Interventional Video Grounding with Dual Contrastive Learning [16.0734337895897]
ビデオグラウンドティングは、与えられたテキストクエリのために、未編集のビデオから瞬間をローカライズすることを目的としている。
本稿では、因果推論の観点から新しいパラダイムを提案し、モデルとデータの背後にある因果関係を明らかにする。
また、テキストとビデオの整合性を改善するために、二重のコントラスト学習アプローチを導入しています。
論文 参考訳(メタデータ) (2021-06-21T12:11:28Z) - A Simple Yet Effective Method for Video Temporal Grounding with
Cross-Modality Attention [31.218804432716702]
言語誘導ビデオの時間的グラウンド化の課題は、検索文に対応する特定のビデオクリップを、未トリミングビデオでローカライズすることである。
直感的な構造設計が可能な単純な2分岐クロスモダリティアテンション(CMA)モジュールを提案する。
さらに,アノテーションバイアスの影響を緩和し,時間的接地精度を向上させるタスク固有回帰損失関数を導入する。
論文 参考訳(メタデータ) (2020-09-23T16:03:00Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z) - MetricUNet: Synergistic Image- and Voxel-Level Learning for Precise CT
Prostate Segmentation via Online Sampling [66.01558025094333]
本稿では,前立腺領域を高速に局在させる第1段階と,前立腺領域を正確に区分する第2段階の2段階のフレームワークを提案する。
マルチタスクネットワークにおけるボクセルワイドサンプリングによる新しいオンラインメトリック学習モジュールを提案する。
本手法は,従来のクロスエントロピー学習法やDice損失学習法と比較して,より代表的なボクセルレベルの特徴を効果的に学習することができる。
論文 参考訳(メタデータ) (2020-05-15T10:37:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。