論文の概要: Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding
- arxiv url: http://arxiv.org/abs/2305.04123v1
- Date: Sat, 6 May 2023 19:29:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 17:29:54.520202
- Title: Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding
- Title(参考訳): 時間文接地のための変換同変一致学習
- Authors: Daizong Liu, Xiaoye Qu, Jianfeng Dong, Pan Zhou, Zichuan Xu, Haozhao
Wang, Xing Di, Weining Lu, Yu Cheng
- Abstract要約: ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
- 参考スコア(独自算出の注目度): 66.10949751429781
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the temporal sentence grounding (TSG). Although existing
methods have made decent achievements in this task, they not only severely rely
on abundant video-query paired data for training, but also easily fail into the
dataset distribution bias. To alleviate these limitations, we introduce a novel
Equivariant Consistency Regulation Learning (ECRL) framework to learn more
discriminative query-related frame-wise representations for each video, in a
self-supervised manner. Our motivation comes from that the temporal boundary of
the query-guided activity should be consistently predicted under various
video-level transformations. Concretely, we first design a series of
spatio-temporal augmentations on both foreground and background video segments
to generate a set of synthetic video samples. In particular, we devise a
self-refine module to enhance the completeness and smoothness of the augmented
video. Then, we present a novel self-supervised consistency loss (SSCL) applied
on the original and augmented videos to capture their invariant query-related
semantic by minimizing the KL-divergence between the sequence similarity of two
videos and a prior Gaussian distribution of timestamp distance. At last, a
shared grounding head is introduced to predict the transform-equivariant
query-guided segment boundaries for both the original and augmented videos.
Extensive experiments on three challenging datasets (ActivityNet, TACoS, and
Charades-STA) demonstrate both effectiveness and efficiency of our proposed
ECRL framework.
- Abstract(参考訳): 本稿では,tsg(temporal sentence grounding)について述べる。
既存の手法は、このタスクで十分な成果を上げてきたが、トレーニングには豊富なビデオクエリペアデータに頼るだけでなく、データセットの分布バイアスにも容易に失敗する。
これらの制約を緩和するために,各ビデオに対してより識別的なクエリ関連フレームワイズ表現を自己管理的に学習する,新しいECRL(Equivariant Consistency Regulation Learning)フレームワークを導入する。
私たちの動機は、クエリ誘導アクティビティの時間的境界が、さまざまなビデオレベルの変換の下で一貫して予測されるべきだということです。
具体的には,まず前景と背景映像の双方に時空間的拡張を施し,合成ビデオのサンプル群を生成する。
特に,拡張映像の完全性と滑らか性を高めるために,自己定義モジュールを考案する。
そこで本研究では,2つの映像の系列類似度と先行するタイムスタンプ距離のガウス分布とのkl分布を最小化することにより,その不変クエリ関連意味を捉えるために,オリジナル映像と拡張映像に適用した新しい自己教師付き一貫性損失(sscl)を提案する。
最終的に、オリジナルビデオと拡張ビデオの両方の変換等価クエリガイドセグメント境界を予測するために、共有接地ヘッドが導入された。
3つの挑戦的データセット(ActivityNet、TACoS、Charades-STA)に対する大規模な実験は、提案したECRLフレームワークの有効性と効率性を実証している。
関連論文リスト
- COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。
我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。
COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-13T06:27:13Z) - MAVIN: Multi-Action Video Generation with Diffusion Models via Transition Video Infilling [19.004339956475498]
MAVINは、2つの動画をシームレスに接続し、結合的な統合シーケンスを形成するトランジションビデオを生成するように設計されている。
従来の品質基準を補完し,時間的コヒーレンスと滑らかさを評価するための新しい指標CLIP-RS(CLIP Relative Smoothness)を導入する。
馬とトラのシナリオに関する実験結果は、滑らかでコヒーレントなビデオ遷移を生成するMAVINの優れた性能を示す。
論文 参考訳(メタデータ) (2024-05-28T09:46:09Z) - Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding [70.31050639330603]
ビデオ段落の接頭辞は、意味的関係と時間的順序を持つ複数の文を、トリミングされていないビデオからローカライズすることを目的としている。
既存のVPGアプローチは、かなりの数の時間ラベルに大きく依存している。
我々は、時間的アノテーションの必要性を排除するために、Wakly-Supervised Video paragraph Grounding (WSVPG)を導入し、探索する。
論文 参考訳(メタデータ) (2024-03-18T04:30:31Z) - Temporal Sentence Grounding in Streaming Videos [60.67022943824329]
本稿では,ストリーミングビデオにおける時間文グラウンディング(TSGSV)の新たな課題に取り組むことを目的とする。
TSGSVの目標は、ビデオストリームと所定の文クエリの関連性を評価することである。
本研究では,(1)モデルが今後のイベントを学習することを可能にするTwinNet構造,(2)冗長な視覚的フレームを除去する言語誘導型特徴圧縮器の2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T12:30:58Z) - Self-supervised and Weakly Supervised Contrastive Learning for
Frame-wise Action Representations [26.09611987412578]
本稿では,フレームワイドな行動表現を自己監督的あるいは弱監督的に学習するための,コントラッシブ・アクション表現学習(CARL)の枠組みを紹介する。
具体的には,空間的コンテキストと時間的コンテキストの両方を考慮した,シンプルだが効果的なビデオエンコーダを提案する。
提案手法は,下流の微細な動作分類とより高速な推論において,従来の最先端技術よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-06T16:42:22Z) - Unsupervised Video Domain Adaptation for Action Recognition: A
Disentanglement Perspective [37.45565756522847]
我々は2つの潜在要因からドメイン間ビデオを生成することを検討する。
TranSVAEフレームワークはそのような世代をモデル化するために開発される。
UCF-HMDB、Jester、Epic-Kitchensデータセットの実験は、TranSVAEの有効性と優位性を検証する。
論文 参考訳(メタデータ) (2022-08-15T17:59:31Z) - Temporal Transductive Inference for Few-Shot Video Object Segmentation [27.140141181513425]
Few-shot Object segmentation (FS-VOS) は、初期訓練中に見えないクラスのラベル付き例を用いて、ビデオフレームのセグメンテーションを目的としている。
我々のアプローチの鍵は、グローバルな時間的制約とローカルな時間的制約の両方を使用することである。
経験的に、我々のモデルは、YouTube-VIS上の組合間の平均交点を2.8%上回る、最先端のメタラーニングアプローチより優れている。
論文 参考訳(メタデータ) (2022-03-27T14:08:30Z) - Dense Unsupervised Learning for Video Segmentation [49.46930315961636]
ビデオオブジェクトセグメンテーション(VOS)のための教師なし学習のための新しいアプローチを提案する。
これまでの研究とは異なり、我々の定式化によって、完全に畳み込みの仕組みで、密集した特徴表現を直接学習することができる。
我々の手法は、トレーニングデータや計算能力が大幅に少ないにもかかわらず、以前の作業のセグメンテーション精度を超える。
論文 参考訳(メタデータ) (2021-11-11T15:15:11Z) - Domain Adaptive Video Segmentation via Temporal Consistency
Regularization [32.77436219094282]
本稿では,時間的整合性正規化(TCR)によりビデオ内の領域ギャップに対処するドメイン適応型ビデオセグメンテーションネットワークであるDA-VSNを提案する。
ひとつはクロスドメインTCRで、ターゲットフレームの予測を、(アノテートされたソースデータから派生した)ソースフレームと同様の時間的一貫性を持つように誘導する。
2つ目はドメイン内TCRで、ターゲットフレームの信頼できない予測を、ターゲットフレームの自信のある予測と同様の時間的一貫性を持つように誘導する。
論文 参考訳(メタデータ) (2021-07-23T02:50:42Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。