論文の概要: Contrast-Unity for Partially-Supervised Temporal Sentence Grounding
- arxiv url: http://arxiv.org/abs/2502.12917v1
- Date: Tue, 18 Feb 2025 14:59:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:06:55.200619
- Title: Contrast-Unity for Partially-Supervised Temporal Sentence Grounding
- Title(参考訳): 部分教師付き時間文接地におけるコントラスト・ユニティ
- Authors: Haicheng Wang, Chen Ju, Weixiong Lin, Chaofan Ma, Shuai Xiao, Ya Zhang, Yanfeng Wang,
- Abstract要約: 本稿では、中間的な部分教師付き設定、すなわち、トレーニング中はショートクリップのみが利用可能であることを示す。
部分ラベルをフル活用するために、暗黙的なプログレッシブグラウンドディングという2段階の目標を持つコントラストユニティフレームワークを特別に設計する。
明示的な段階では、接地目的を明示的に最適化するために、得られた擬似ラベルを用いて1つの完全教師付きモデルを訓練する。
- 参考スコア(独自算出の注目度): 31.12361511030561
- License:
- Abstract: Temporal sentence grounding aims to detect event timestamps described by the natural language query from given untrimmed videos. The existing fully-supervised setting achieves great results but requires expensive annotation costs; while the weakly-supervised setting adopts cheap labels but performs poorly. To pursue high performance with less annotation costs, this paper introduces an intermediate partially-supervised setting, i.e., only short-clip is available during training. To make full use of partial labels, we specially design one contrast-unity framework, with the two-stage goal of implicit-explicit progressive grounding. In the implicit stage, we align event-query representations at fine granularity using comprehensive quadruple contrastive learning: event-query gather, event-background separation, intra-cluster compactness and inter-cluster separability. Then, high-quality representations bring acceptable grounding pseudo-labels. In the explicit stage, to explicitly optimize grounding objectives, we train one fully-supervised model using obtained pseudo-labels for grounding refinement and denoising. Extensive experiments and thoroughly ablations on Charades-STA and ActivityNet Captions demonstrate the significance of partial supervision, as well as our superior performance.
- Abstract(参考訳): 時間文グラウンドティングは、与えられた未トリミングビデオから自然言語クエリによって記述されたイベントタイムスタンプを検出することを目的としている。
既存の完全教師付きセッティングは素晴らしい結果を得るが、高価なアノテーションコストを必要とするが、弱い教師付きセッティングは安価なラベルを採用するが、性能は低い。
アノテーションのコストを抑えて高い性能を追求するために,本論文では,中間的な部分教師付き設定,すなわち,トレーニング中にショートクリップのみが利用可能となることを紹介する。
部分ラベルをフル活用するために、暗黙的なプログレッシブグラウンドディングという2段階の目標を持つコントラストユニティフレームワークを特別に設計する。
暗黙的な段階では、イベント・クエリ・コレクション、イベント・バックグラウンド分離、クラスタ内コンパクト性、クラスタ間分離性といった、総合的な4倍のコントラスト学習を用いて、イベント・クエリ・表現を微粒度に調整する。
そして、高品質な表現は受け入れられる擬似ラベルをもたらす。
明示的な段階では、接地目的を明示的に最適化するために、得られた擬似ラベルを用いて1つの完全教師付きモデルを訓練する。
Charades-STAとActivityNet Captionsの広範な実験と徹底的な改善は、部分的な監督の重要性と、優れたパフォーマンスを示している。
関連論文リスト
- Dynamic Contrastive Learning for Time Series Representation [6.086030037869592]
時系列の教師なしコントラスト表現学習フレームワークDynaCLを提案する。
DynaCLは時系列から意味のあるクラスタにインスタンスを埋め込みます。
また、教師なしクラスタリングメトリクスの高得点は、下流タスクにおいて表現が有用であることを保証していないことも明らかにした。
論文 参考訳(メタデータ) (2024-10-20T15:20:24Z) - Constraint and Union for Partially-Supervised Temporal Sentence
Grounding [70.70385299135916]
時間的文接頭辞は、与えられた未編集ビデオから自然言語クエリによって記述された事象のタイムスタンプを検出することを目的としている。
既存の完全教師付き設定は優れたパフォーマンスを実現するが、高価なアノテーションコストを必要とする。
本稿では、中間的な部分教師付き設定、すなわち、トレーニング中に利用可能なショートクリップやシングルフレームラベルについて紹介する。
論文 参考訳(メタデータ) (2023-02-20T09:14:41Z) - Temporal Transductive Inference for Few-Shot Video Object Segmentation [27.140141181513425]
Few-shot Object segmentation (FS-VOS) は、初期訓練中に見えないクラスのラベル付き例を用いて、ビデオフレームのセグメンテーションを目的としている。
我々のアプローチの鍵は、グローバルな時間的制約とローカルな時間的制約の両方を使用することである。
経験的に、我々のモデルは、YouTube-VIS上の組合間の平均交点を2.8%上回る、最先端のメタラーニングアプローチより優れている。
論文 参考訳(メタデータ) (2022-03-27T14:08:30Z) - Self-supervised Learning for Semi-supervised Temporal Language Grounding [84.11582376377471]
時間的言語接地(TLG)は、ビデオ中の特定の意味を含むセグメントの時間的境界をローカライズすることを目的としている。
以前の作業では、大量の手動アノテーションを必要とする完全に教師された設定や、満足のいくパフォーマンスを達成できない弱監督された設定で、このタスクに取り組みました。
アノテーションを限定して高い性能を達成するため,この課題を半教師付き方法で解決し,半教師付きテンポラル言語グラウンドディング(STLG)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-23T16:29:16Z) - Semi-supervised Semantic Segmentation with Directional Context-aware
Consistency [66.49995436833667]
我々は、ラベル付きデータの小さなセットに、全くラベル付けされていない画像のより大きなコレクションを提供する半教師付きセグメンテーション問題に焦点をあてる。
好ましいハイレベル表現は、自己認識を失わずにコンテキスト情報をキャプチャするべきである。
我々は,DCロス(Directional Contrastive Loss)を画素対ピクセルの整合性を達成するために提示する。
論文 参考訳(メタデータ) (2021-06-27T03:42:40Z) - Reinforcement Learning for Weakly Supervised Temporal Grounding of
Natural Language in Untrimmed Videos [134.78406021194985]
我々は、時間境界のない粗いビデオレベルの言語記述アノテーションにのみアクセス可能な、このタスクの弱教師付き設定に焦点を当てる。
本稿では,時間境界を段階的に洗練する過程を指導するために,強化学習を利用したemphBoundary Adaptive Refinement(BAR)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-18T03:32:47Z) - Improving Semantic Segmentation via Self-Training [75.07114899941095]
半教師付きアプローチ,特に自己学習パラダイムを用いて,最先端の成果を得ることができることを示す。
まず、ラベル付きデータに基づいて教師モデルを訓練し、次にラベルなしデータの大規模なセット上で擬似ラベルを生成する。
私たちの堅牢なトレーニングフレームワークは、人名と擬似ラベルを共同で消化し、Cityscapes、CamVid、KITTIデータセット上で最高のパフォーマンスを達成することができます。
論文 参考訳(メタデータ) (2020-04-30T17:09:17Z) - Look Closer to Ground Better: Weakly-Supervised Temporal Grounding of
Sentence in Video [53.69956349097428]
未トリミングビデオと問合せ文が与えられた場合、我々のゴールは、問合せ文に意味的に対応するビデオ内の時間セグメントをローカライズすることである。
本稿では,この問題を粗大な方法で解くための2段階モデルを提案する。
論文 参考訳(メタデータ) (2020-01-25T13:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。