論文の概要: Weakly Supervised Temporal Sentence Grounding via Positive Sample Mining
- arxiv url: http://arxiv.org/abs/2505.06557v1
- Date: Sat, 10 May 2025 08:03:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.90572
- Title: Weakly Supervised Temporal Sentence Grounding via Positive Sample Mining
- Title(参考訳): 正のサンプルマイニングによる弱教師付き時間文接地
- Authors: Lu Dong, Haiyu Zhang, Hongjie Zhang, Yifei Huang, Zhen-Hua Ling, Yu Qiao, Limin Wang, Yali Wang,
- Abstract要約: WSTSGの課題は、ビデオレベルのビデオ言語対応のみで、未編集ビデオから言語記述に対応する時間間隔を検出することである。
アンカーサンプルの場合、既存のほとんどのアプローチは、対照的な学習のために、他のビデオまたは同じビデオから負のサンプルを生成する。
我々は,より差別的な監視を提供するために,トレーニングセットから正のサンプルをマイニングする新しいフレームワークである正のサンプルマイニング(PSM)を提案する。
- 参考スコア(独自算出の注目度): 64.25904019001449
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of weakly supervised temporal sentence grounding (WSTSG) aims to detect temporal intervals corresponding to a language description from untrimmed videos with only video-level video-language correspondence. For an anchor sample, most existing approaches generate negative samples either from other videos or within the same video for contrastive learning. However, some training samples are highly similar to the anchor sample, directly regarding them as negative samples leads to difficulties for optimization and ignores the correlations between these similar samples and the anchor sample. To address this, we propose Positive Sample Mining (PSM), a novel framework that mines positive samples from the training set to provide more discriminative supervision. Specifically, for a given anchor sample, we partition the remaining training set into semantically similar and dissimilar subsets based on the similarity of their text queries. To effectively leverage these correlations, we introduce a PSM-guided contrastive loss to ensure that the anchor proposal is closer to similar samples and further from dissimilar ones. Additionally, we design a PSM-guided rank loss to ensure that similar samples are closer to the anchor proposal than to the negative intra-video proposal, aiming to distinguish the anchor proposal and the negative intra-video proposal. Experiments on the WSTSG and grounded VideoQA tasks demonstrate the effectiveness and superiority of our method.
- Abstract(参考訳): WSTSGの課題は、ビデオレベルのビデオ言語対応のみで、未編集ビデオから言語記述に対応する時間間隔を検出することである。
アンカーサンプルの場合、既存のほとんどのアプローチは、対照的な学習のために、他のビデオまたは同じビデオから負のサンプルを生成する。
しかしながら、いくつかのトレーニングサンプルはアンカーサンプルと非常によく似ており、負のサンプルは最適化の困難を招き、これらの類似のサンプルとアンカーサンプルの相関を無視する。
そこで本研究では,トレーニングセットから正のサンプルをマイニングし,より差別的な監視を行う新しいフレームワークとして,正のサンプルマイニング(PSM)を提案する。
具体的には、与えられたアンカーサンプルに対して、残りのトレーニングセットを、テキストクエリの類似性に基づいて、意味的に類似し、異なるサブセットに分割する。
これらの相関を効果的に活用するために,PSM誘導型コントラスト損失を導入し,アンカー提案が類似したサンプルに近づき,さらに異種に近づいたことを確認した。
さらに,PSM誘導のランクロスを設計し,類似のサンプルがビデオ内提案よりもアンカー提案に近づき,アンカー提案とビデオ内提案とを区別することを目的とした。
WSTSGとビデオQAタスクの実験により,本手法の有効性と優位性を実証した。
関連論文リスト
- Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Synthetic Hard Negative Samples for Contrastive Learning [8.776888865665024]
本稿では,コントラスト学習のための新しい特徴レベル手法,すなわち合成硬質負のサンプルをサンプリングする手法を提案する。
負試料を混合し, アンカー試料と他の負試料とのコントラストを制御して, より硬い負試料を生成する。
提案手法は,画像データセットの分類性能を向上し,既存の手法に容易に組み込むことができる。
論文 参考訳(メタデータ) (2023-04-06T09:54:35Z) - SNCSE: Contrastive Learning for Unsupervised Sentence Embedding with
Soft Negative Samples [36.08601841321196]
ソフトな負のサンプルを埋め込んだ教師なし文のコントラスト学習を提案する。
SNCSEは意味的テキスト類似性タスクにおいて最先端の性能を得ることができることを示す。
論文 参考訳(メタデータ) (2022-01-16T06:15:43Z) - Contrastive Attraction and Contrastive Repulsion for Representation
Learning [131.72147978462348]
コントラスト学習(CL)法は,複数の負のサンプルに対して,エンコーダが各正のサンプルと対比する自己超越的な方法でデータ表現を学習する。
最近のCL法は、ImageNetのような大規模データセットで事前訓練された場合、有望な結果を得た。
自己グループ内の正と負のサンプルを別々に比較し、正と負の群を対比して進行する2つのCL戦略を提案する。
論文 参考訳(メタデータ) (2021-05-08T17:25:08Z) - Doubly Contrastive Deep Clustering [135.7001508427597]
本稿では、サンプルビューとクラスビューの両方でコントラスト損失を構築する新しい二重コントラストディープクラスタリング(DCDC)フレームワークを紹介します。
具体的には、サンプルビューに対して、元のサンプルとその拡張バージョンのクラス分布を正のサンプルペアとして設定する。
クラスビューでは、クラスのサンプル分布から正のペアと負のペアを構築します。
このように、2つのコントラスト損失は、サンプルとクラスレベルでのミニバッチサンプルのクラスタリング結果をうまく制限します。
論文 参考訳(メタデータ) (2021-03-09T15:15:32Z) - Support-set bottlenecks for video-text representation learning [131.4161071785107]
ビデオテキスト表現(ノイズコントラスト学習)を学ぶための支配的なパラダイムは厳しすぎる。
本稿では,これらのサンプルを自然に押下する生成モデルを活用することによって,これを緩和する手法を提案する。
提案手法は,MSR-VTT,VATEX,ActivityNet,MSVDにおいて,ビデオ・テキスト・テキスト・ビデオ検索やテキスト・トゥ・ビデオ検索において,他よりも優れていた。
論文 参考訳(メタデータ) (2020-10-06T15:38:54Z) - Regularized Two-Branch Proposal Networks for Weakly-Supervised Moment
Retrieval in Videos [108.55320735031721]
ビデオモーメント検索は、所定の文に従って、ビデオ中のターゲットモーメントをローカライズすることを目的としている。
既存の弱監督手法の多くは、MILベースのフレームワークをサンプル間対決の開発に適用している。
本稿では,サンプル間およびサンプル内対立を同時に検討するための,正規化された2分岐提案ネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-19T04:42:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。