論文の概要: D3G: Exploring Gaussian Prior for Temporal Sentence Grounding with
Glance Annotation
- arxiv url: http://arxiv.org/abs/2308.04197v1
- Date: Tue, 8 Aug 2023 11:49:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 13:06:25.641496
- Title: D3G: Exploring Gaussian Prior for Temporal Sentence Grounding with
Glance Annotation
- Title(参考訳): D3G: Glanceアノテーションを用いた時間文接地のためのガウス先行探索
- Authors: Hanjun Li, Xiujun Shu, Sunan He, Ruizhi Qiao, Wei Wen, Taian Guo, Bei
Gan, Xing Sun
- Abstract要約: 時間文グラウンドティング(TSG)は、与えられた自然言語クエリーで、未編集のビデオから特定の瞬間を見つけることを目的としている。
本研究では,TSGタスクのアノテーションコストを削減しつつ,TSGタスクの競合性能を維持することを目的としている。
本稿では,Glanceアノテーション(D3G)を用いた動的ガウス事前ベースグラウンドフレームワークを提案する。
- 参考スコア(独自算出の注目度): 21.071625900780962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal sentence grounding (TSG) aims to locate a specific moment from an
untrimmed video with a given natural language query. Recently, weakly
supervised methods still have a large performance gap compared to fully
supervised ones, while the latter requires laborious timestamp annotations. In
this study, we aim to reduce the annotation cost yet keep competitive
performance for TSG task compared to fully supervised ones. To achieve this
goal, we investigate a recently proposed glance-supervised temporal sentence
grounding task, which requires only single frame annotation (referred to as
glance annotation) for each query. Under this setup, we propose a Dynamic
Gaussian prior based Grounding framework with Glance annotation (D3G), which
consists of a Semantic Alignment Group Contrastive Learning module (SA-GCL) and
a Dynamic Gaussian prior Adjustment module (DGA). Specifically, SA-GCL samples
reliable positive moments from a 2D temporal map via jointly leveraging
Gaussian prior and semantic consistency, which contributes to aligning the
positive sentence-moment pairs in the joint embedding space. Moreover, to
alleviate the annotation bias resulting from glance annotation and model
complex queries consisting of multiple events, we propose the DGA module, which
adjusts the distribution dynamically to approximate the ground truth of target
moments. Extensive experiments on three challenging benchmarks verify the
effectiveness of the proposed D3G. It outperforms the state-of-the-art weakly
supervised methods by a large margin and narrows the performance gap compared
to fully supervised methods. Code is available at
https://github.com/solicucu/D3G.
- Abstract(参考訳): time sentence grounding (tsg) は、与えられた自然言語クエリを持つ未トリミングビデオから特定のモーメントを見つけることを目的としている。
近年では、教師付きメソッドが完全に教師付きメソッドに比べて大きなパフォーマンスギャップを保ち、後者は面倒なタイムスタンプアノテーションを必要とする。
本研究では,TSGタスクのアノテーションコストを削減しつつ,TSGタスクの競合性能を維持することを目的としている。
この目的を達成するために、最近提案された、各クエリに対して単一のフレームアノテーション(参照アノテーション)のみを必要とする、一見教師付き時間文グラウンド化タスクについて検討する。
そこで,本研究では,semantic alignment group contrastive learning module (sa-gcl) と dynamic gaussian prior adjustment module (dga) からなるd3g (d3g) を用いた動的ガウス型事前学習フレームワークを提案する。
特に、SA-GCLはガウスの先行と意味的整合性を利用して、2次元の時間地図から信頼できる正のモーメントをサンプリングし、共同埋め込み空間における正の文-モーメント対の整合に寄与する。
さらに,複数のイベントからなる,視線アノテーションとモデル複合クエリによるアノテーションバイアスを軽減するために,ターゲットモーメントの基底的真理を近似するために分布を動的に調整するdgaモジュールを提案する。
3つの挑戦的なベンチマークに関する大規模な実験は、提案したD3Gの有効性を検証する。
最先端の弱い教師付き手法を大きなマージンで上回り、完全に教師付き手法と比較してパフォーマンスギャップを狭める。
コードはhttps://github.com/solicucu/D3Gで入手できる。
関連論文リスト
- GlanceVAD: Exploring Glance Supervision for Label-efficient Video
Anomaly Detection [36.73022075416943]
本稿では,異常検出精度とアノテーションコストのバランスを改善するために,"glance annotations"と呼ばれる新しいラベリングパラダイムを提案する。
本手法の有効性を評価するため,UCF-Crime と XD-Violence の2つの標準ビデオ異常検出データセットに対して,視線アノテーションを手動でアノテートする。
また,Ssianカーネルを基本単位として時間的異常分布を構成するGlanceVAD法を提案する。
論文 参考訳(メタデータ) (2024-03-10T09:57:10Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Tracking Objects and Activities with Attention for Temporal Sentence
Grounding [51.416914256782505]
時間文 (TSG) は、意味的に自然言語のクエリと一致した時間セグメントを、トリミングされていないセグメントでローカライズすることを目的としている。
本稿では,(A)マルチモーダル・検索空間を生成するクロスモーダル・ターゲット・ジェネレータと(B)マルチモーダル・ターゲットの動作を追跡し,クエリ関連セグメントを予測するテンポラル・センセント・トラッカーとを含む,新しいテンポラル・センセント・トラッカー・ネットワーク(TSTNet)を提案する。
論文 参考訳(メタデータ) (2023-02-21T16:42:52Z) - Collaborative Propagation on Multiple Instance Graphs for 3D Instance
Segmentation with Single-point Supervision [63.429704654271475]
本稿では,1つのオブジェクトを1つのポイントでラベル付けするだけでよい,弱教師付き手法RWSegを提案する。
これらの疎いラベルにより、セマンティック情報とインスタンス情報を伝達する2つの分岐を持つ統一的なフレームワークを導入する。
具体的には、異なるインスタンスグラフ間の競合を促進するクロスグラフ競合ランダムウォークス(CRW)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-10T02:14:39Z) - Video Moment Retrieval from Text Queries via Single Frame Annotation [65.92224946075693]
ビデオモーメント検索は、与えられた自然言語クエリによって記述されたモーメントの開始と終了のタイムスタンプを見つけることを目的としている。
完全な教師付き手法は、有望な結果を達成するために完全な時間境界アノテーションを必要とする。
我々は「用語アノテーション」と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-04-20T11:59:17Z) - Self-supervised Learning for Semi-supervised Temporal Language Grounding [84.11582376377471]
時間的言語接地(TLG)は、ビデオ中の特定の意味を含むセグメントの時間的境界をローカライズすることを目的としている。
以前の作業では、大量の手動アノテーションを必要とする完全に教師された設定や、満足のいくパフォーマンスを達成できない弱監督された設定で、このタスクに取り組みました。
アノテーションを限定して高い性能を達成するため,この課題を半教師付き方法で解決し,半教師付きテンポラル言語グラウンドディング(STLG)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-23T16:29:16Z) - A Closer Look at Temporal Sentence Grounding in Videos: Datasets and
Metrics [70.45937234489044]
2つの広く使用されているTSGVデータセット(Charades-STAとActivityNet Captions)を再編成し、トレーニング分割と異なるものにします。
基本的なIoUスコアを校正するために、新しい評価基準「dR@$n$,IoU@$m$」を導入する。
すべての結果は、再編成されたデータセットと新しいメトリクスがTSGVの進捗をよりよく監視できることを示している。
論文 参考訳(メタデータ) (2021-01-22T09:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。