論文の概要: Unsupervised Temporal Video Grounding with Deep Semantic Clustering
- arxiv url: http://arxiv.org/abs/2201.05307v1
- Date: Fri, 14 Jan 2022 05:16:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-17 14:12:30.242594
- Title: Unsupervised Temporal Video Grounding with Deep Semantic Clustering
- Title(参考訳): ディープセマンティクスクラスタリングを用いた教師なし時間ビデオグラウンド
- Authors: Daizong Liu, Xiaoye Qu, Yinzhen Wang, Xing Di, Kai Zou, Yu Cheng,
Zichuan Xu, Pan Zhou
- Abstract要約: 時間的ビデオグラウンドティングは、所定の文クエリに従って、ビデオ内のターゲットセグメントをローカライズすることを目的としている。
本稿では,ペアアノテーションを使わずにビデオグラウンドモデルが学べるかどうかを考察する。
ペア化された監視が存在しないことを考慮し,クエリ集合全体からすべての意味情報を活用するための新しいDeep Semantic Clustering Network (DSCNet)を提案する。
- 参考スコア(独自算出の注目度): 58.95918952149763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal video grounding (TVG) aims to localize a target segment in a video
according to a given sentence query. Though respectable works have made decent
achievements in this task, they severely rely on abundant video-query paired
data, which is expensive and time-consuming to collect in real-world scenarios.
In this paper, we explore whether a video grounding model can be learned
without any paired annotations. To the best of our knowledge, this paper is the
first work trying to address TVG in an unsupervised setting. Considering there
is no paired supervision, we propose a novel Deep Semantic Clustering Network
(DSCNet) to leverage all semantic information from the whole query set to
compose the possible activity in each video for grounding. Specifically, we
first develop a language semantic mining module, which extracts implicit
semantic features from the whole query set. Then, these language semantic
features serve as the guidance to compose the activity in video via a
video-based semantic aggregation module. Finally, we utilize a foreground
attention branch to filter out the redundant background activities and refine
the grounding results. To validate the effectiveness of our DSCNet, we conduct
experiments on both ActivityNet Captions and Charades-STA datasets. The results
demonstrate that DSCNet achieves competitive performance, and even outperforms
most weakly-supervised approaches.
- Abstract(参考訳): 時間的ビデオグラウンドティング(TVG)は、所定の文クエリに従って、ビデオ内のターゲットセグメントをローカライズすることを目的としている。
このタスクでは優れた成果を上げているが、実際のシナリオで収集するには高価で時間を要する、豊富なビデオクエリペアデータに大きく依存している。
本稿では,ペアアノテーションを使わずにビデオグラウンドモデルが学習できるかどうかを検討する。
我々の知る限りでは、この論文は教師なし環境でテレビGに対処しようとする最初の試みである。
ペア化された監視が存在しないことを考慮し,クエリ集合全体の意味情報をすべて活用し,グラウンド化のための各ビデオのアクティビティを構成するための新しいDeep Semantic Clustering Network (DSCNet)を提案する。
具体的には,クエリ集合全体から暗黙的な意味的特徴を抽出する言語セマンティクスマイニングモジュールを開発した。
次に、これらの言語意味機能は、ビデオベースのセマンティックアグリゲーションモジュールを介して、ビデオ内のアクティビティを構成するためのガイダンスとして機能する。
最後に,前景アテンションブランチを用いて,冗長なバックグラウンドアクティビティをフィルタリングし,グラウンド化結果を精査する。
DSCNetの有効性を検証するため,ActivityNet CaptionsとCharades-STAデータセットの両方で実験を行った。
その結果、dscnetは競争力のある性能を達成し、最も弱い教師付きアプローチよりも優れています。
関連論文リスト
- Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Learning Grounded Vision-Language Representation for Versatile
Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。
粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。
我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文 参考訳(メタデータ) (2023-03-11T11:00:16Z) - Fine-grained Semantic Alignment Network for Weakly Supervised Temporal
Language Grounding [148.46348699343991]
時間的言語接地は、自然言語記述に基づいてビデオセグメントを未編集ビデオにローカライズすることを目的としている。
既存の弱教師付きメソッドのほとんどは、候補セグメントを生成し、MILベースのフレームワークを通じて、相互アライメントを学ぶ。
我々は、弱い教師付きTLGのための新しい候補のないフレームワーク、細粒度セマンティックアライメントネットワーク(FSAN)を提案する。
論文 参考訳(メタデータ) (2022-10-21T13:10:27Z) - Self-supervised Learning for Semi-supervised Temporal Language Grounding [84.11582376377471]
時間的言語接地(TLG)は、ビデオ中の特定の意味を含むセグメントの時間的境界をローカライズすることを目的としている。
以前の作業では、大量の手動アノテーションを必要とする完全に教師された設定や、満足のいくパフォーマンスを達成できない弱監督された設定で、このタスクに取り組みました。
アノテーションを限定して高い性能を達成するため,この課題を半教師付き方法で解決し,半教師付きテンポラル言語グラウンドディング(STLG)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-23T16:29:16Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。