論文の概要: Constraint and Union for Partially-Supervised Temporal Sentence
Grounding
- arxiv url: http://arxiv.org/abs/2302.09850v1
- Date: Mon, 20 Feb 2023 09:14:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 16:11:31.930502
- Title: Constraint and Union for Partially-Supervised Temporal Sentence
Grounding
- Title(参考訳): 部分監督型時間文接地における制約と統一
- Authors: Chen Ju, Haicheng Wang, Jinxiang Liu, Chaofan Ma, Ya Zhang, Peisen
Zhao, Jianlong Chang, Qi Tian
- Abstract要約: 時間的文接頭辞は、与えられた未編集ビデオから自然言語クエリによって記述された事象のタイムスタンプを検出することを目的としている。
既存の完全教師付き設定は優れたパフォーマンスを実現するが、高価なアノテーションコストを必要とする。
本稿では、中間的な部分教師付き設定、すなわち、トレーニング中に利用可能なショートクリップやシングルフレームラベルについて紹介する。
- 参考スコア(独自算出の注目度): 70.70385299135916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal sentence grounding aims to detect the event timestamps described by
the natural language query from given untrimmed videos. The existing
fully-supervised setting achieves great performance but requires expensive
annotation costs; while the weakly-supervised setting adopts cheap labels but
performs poorly. To pursue high performance with less annotation cost, this
paper introduces an intermediate partially-supervised setting, i.e., only
short-clip or even single-frame labels are available during training. To take
full advantage of partial labels, we propose a novel quadruple constraint
pipeline to comprehensively shape event-query aligned representations, covering
intra- and inter-samples, uni- and multi-modalities. The former raises
intra-cluster compactness and inter-cluster separability; while the latter
enables event-background separation and event-query gather. To achieve more
powerful performance with explicit grounding optimization, we further introduce
a partial-full union framework, i.e., bridging with an additional
fully-supervised branch, to enjoy its impressive grounding bonus, and be robust
to partial annotations. Extensive experiments and ablations on Charades-STA and
ActivityNet Captions demonstrate the significance of partial supervision and
our superior performance.
- Abstract(参考訳): 時間文グラウンドティングは、与えられた未トリミングビデオから自然言語クエリによって記述されたイベントタイムスタンプを検出することを目的としている。
既存の完全教師付き設定は優れた性能を実現するが、高価なアノテーションコストを必要とする。
アノテーションコストを少なくして高いパフォーマンスを追求するために,中間部分教師付き設定,すなわち,トレーニング中に短いクリップラベルやシングルフレームラベルのみを利用可能にする。
部分ラベルを最大限に活用するために,イベントクエリアラインメント表現を包括的に形成し,サンプル間およびサンプル間,ユニモダリティ,マルチモダリティをカバーする新しい4重項制約パイプラインを提案する。
前者はクラスタ内コンパクト性とクラスタ間分離性を高め、後者はイベントバックグラウンド分離とイベントクエリ収集を可能にする。
明示的な接地最適化によるより強力な性能を実現するために,我々はさらに,完全教師付き分岐を付加した部分完全結合フレームワークを導入し,その印象的な接地ボーナスを享受し,部分アノテーションに頑健である。
Charades-STAとActivityNet Captionsの大規模な実験と改善は、部分的な監督の重要性と優れたパフォーマンスを示している。
関連論文リスト
- Timestamp-supervised Wearable-based Activity Segmentation and
Recognition with Contrastive Learning and Order-Preserving Optimal Transport [11.837401473598288]
本稿では,タイムスタンプによる協調活動のセグメンテーションと認識のための新しい手法を提案する。
プロトタイプはクラスアクティベーションマップによって推定され、サンプル-プロトタイプコントラストモジュールを形成する。
4つの公開HARデータセットに関する総合的な実験により、タイムスタンプの監督で訓練されたモデルが、最先端の弱い教師付き手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-13T14:00:49Z) - Proposal-based Temporal Action Localization with Point-level Supervision [29.98225940694062]
ポイントレベルの時間的行動ローカライゼーション(PTAL)は、未トリミングビデオにおけるアクションの認識とローカライズを目的としている。
そこで本研究では,フレキシブル期間のアクション提案を生成し,評価することで,アクションをローカライズする手法を提案する。
実験の結果,提案手法は最先端手法の競争力や性能に優れることがわかった。
論文 参考訳(メタデータ) (2023-10-09T08:27:05Z) - Distill and Collect for Semi-Supervised Temporal Action Segmentation [0.0]
本稿では,注釈付きおよび注釈なしのビデオシーケンスからの知識を同時に活用する時間的行動分割タスクを提案する。
提案手法では, 繰り返し精製し, 最終的にフレーム予測を組み合わすマルチストリーム蒸留を用いる。
また,本モデルでは,後に時間的制約として使用されるアクション順序を予測し,無注釈ビデオの監督の欠如に対処するため,フレームラベルを推定する。
論文 参考訳(メタデータ) (2022-11-02T17:34:04Z) - A Generalized & Robust Framework For Timestamp Supervision in Temporal
Action Segmentation [79.436224998992]
時間的アクションセグメンテーションでは、Timestampの監督はビデオシーケンスごとにわずかにラベル付きフレームを必要とする。
本稿では,未ラベルフレームのラベルの不確実性を利用した期待最大化に基づく新しい手法を提案する。
提案手法はSOTA結果を生成し,複数のメトリクスやデータセットの完全教師付き設定を超えている。
論文 参考訳(メタデータ) (2022-07-20T18:30:48Z) - Cross-Sentence Temporal and Semantic Relations in Video Activity
Localisation [79.50868197788773]
我々は、クロスセンスリレーショナルマイニングを導入して、より正確な教師付きソリューションを開発する。
本稿では,(1)トリミング順序付けと(2)ビデオ活動の段落記述における文間の意味的一貫性の2つの横断的関係性制約について検討する。
2つのパブリックなアクティビティローカライゼーションデータセットの実験は、最先端の弱い教師付き手法に対する我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2021-07-23T20:04:01Z) - WSSOD: A New Pipeline for Weakly- and Semi-Supervised Object Detection [75.80075054706079]
弱機能および半教師付きオブジェクト検出フレームワーク(WSSOD)を提案する。
エージェント検出器は、まず関節データセット上でトレーニングされ、弱注釈画像上で擬似境界ボックスを予測するために使用される。
提案フレームワークはPASCAL-VOC と MSCOCO のベンチマークで顕著な性能を示し,完全教師付き環境で得られたものと同等の性能を達成している。
論文 参考訳(メタデータ) (2021-05-21T11:58:50Z) - Reinforcement Learning for Weakly Supervised Temporal Grounding of
Natural Language in Untrimmed Videos [134.78406021194985]
我々は、時間境界のない粗いビデオレベルの言語記述アノテーションにのみアクセス可能な、このタスクの弱教師付き設定に焦点を当てる。
本稿では,時間境界を段階的に洗練する過程を指導するために,強化学習を利用したemphBoundary Adaptive Refinement(BAR)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-18T03:32:47Z) - Weakly Supervised Temporal Action Localization with Segment-Level Labels [140.68096218667162]
時間的アクションローカライゼーションは、テストパフォーマンスとアノテーション時間コストのトレードオフを示す。
ここでは、アノテーションがアクションを観察するときにセグメントがラベル付けされる。
我々は、ラベル付きセグメントから積分的な動作部分を学ぶために、損失サンプリングと見なされる部分的なセグメント損失を考案する。
論文 参考訳(メタデータ) (2020-07-03T10:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。