論文の概要: Self-supervised Learning for Semi-supervised Temporal Language Grounding
- arxiv url: http://arxiv.org/abs/2109.11475v1
- Date: Thu, 23 Sep 2021 16:29:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-24 16:02:14.841655
- Title: Self-supervised Learning for Semi-supervised Temporal Language Grounding
- Title(参考訳): 半教師付き時間言語接地のための自己指導型学習
- Authors: Fan Luo, Shaoxiang Chen, Jingjing Chen, Zuxuan Wu, Yu-Gang Jiang
- Abstract要約: 時間的言語接地(TLG)は、ビデオ中の特定の意味を含むセグメントの時間的境界をローカライズすることを目的としている。
以前の作業では、大量の手動アノテーションを必要とする完全に教師された設定や、満足のいくパフォーマンスを達成できない弱監督された設定で、このタスクに取り組みました。
アノテーションを限定して高い性能を達成するため,この課題を半教師付き方法で解決し,半教師付きテンポラル言語グラウンドディング(STLG)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 84.11582376377471
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given a text description, Temporal Language Grounding (TLG) aims to localize
temporal boundaries of the segments that contain the specified semantics in an
untrimmed video. TLG is inherently a challenging task, as it requires to have
comprehensive understanding of both video contents and text sentences. Previous
works either tackle this task in a fully-supervised setting that requires a
large amount of manual annotations or in a weakly supervised setting that
cannot achieve satisfactory performance. To achieve good performance with
limited annotations, we tackle this task in a semi-supervised way and propose a
unified Semi-supervised Temporal Language Grounding (STLG) framework. STLG
consists of two parts: (1) A pseudo label generation module that produces
adaptive instant pseudo labels for unlabeled data based on predictions from a
teacher model; (2) A self-supervised feature learning module with two
sequential perturbations, i.e., time lagging and time scaling, for improving
the video representation by inter-modal and intra-modal contrastive learning.
We conduct experiments on the ActivityNet-CD-OOD and Charades-CD-OOD datasets
and the results demonstrate that our proposed STLG framework achieve
competitive performance compared to fully-supervised state-of-the-art methods
with only a small portion of temporal annotations.
- Abstract(参考訳): テキスト記述が与えられた場合、temporal language grounding (tlg) は、特定の意味を含むセグメントの時間境界を未トリミングビデオにローカライズすることを目的としている。
TLGは本質的に難しい課題であり、ビデオの内容と文章の両方を包括的に理解する必要がある。
以前の作業では、大量の手動アノテーションを必要とする完全に監督された設定や、十分なパフォーマンスを達成することができない弱い監督された設定でこのタスクに取り組んだ。
アノテーションを限定して高い性能を達成するため,この課題を半教師付き方法で解決し,半教師付きテンポラル言語グラウンドディング(STLG)フレームワークを提案する。
stlgは,(1)教師モデルからの予測に基づくラベルなしデータに対して適応型インスタント擬似ラベルを生成する疑似ラベル生成モジュール,(2)逐次摂動を2つ有する自己教師付き特徴学習モジュール,すなわち,モード間およびモード内コントラスト学習による映像表現の改善,の2つの部分からなる。
我々は, activitynet-cd-ood と charades-cd-ood のデータセットについて実験を行い,提案する stlg フレームワークが,時間的アノテーションのごく一部しか持たない完全教師付き最先端の手法と比較して,競争力を発揮できることを実証した。
関連論文リスト
- Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding [70.31050639330603]
ビデオ段落の接頭辞は、意味的関係と時間的順序を持つ複数の文を、トリミングされていないビデオからローカライズすることを目的としている。
既存のVPGアプローチは、かなりの数の時間ラベルに大きく依存している。
我々は、時間的アノテーションの必要性を排除するために、Wakly-Supervised Video paragraph Grounding (WSVPG)を導入し、探索する。
論文 参考訳(メタデータ) (2024-03-18T04:30:31Z) - DirecT2V: Large Language Models are Frame-Level Directors for Zero-Shot
Text-to-Video Generation [37.25815760042241]
本稿では,テキスト・ツー・ビデオ(T2V)ビデオを生成するための新しいフレームワークであるDirecT2Vを紹介する。
拡散モデルに新しい値マッピング法とデュアルソフトマックスフィルタリングを適用し、追加のトレーニングを必要としない。
実験により,視覚的コヒーレントかつストーリーフルなビデオ制作におけるフレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2023-05-23T17:57:09Z) - Fine-grained Semantic Alignment Network for Weakly Supervised Temporal
Language Grounding [148.46348699343991]
時間的言語接地は、自然言語記述に基づいてビデオセグメントを未編集ビデオにローカライズすることを目的としている。
既存の弱教師付きメソッドのほとんどは、候補セグメントを生成し、MILベースのフレームワークを通じて、相互アライメントを学ぶ。
我々は、弱い教師付きTLGのための新しい候補のないフレームワーク、細粒度セマンティックアライメントネットワーク(FSAN)を提案する。
論文 参考訳(メタデータ) (2022-10-21T13:10:27Z) - Unsupervised Temporal Video Grounding with Deep Semantic Clustering [58.95918952149763]
時間的ビデオグラウンドティングは、所定の文クエリに従って、ビデオ内のターゲットセグメントをローカライズすることを目的としている。
本稿では,ペアアノテーションを使わずにビデオグラウンドモデルが学べるかどうかを考察する。
ペア化された監視が存在しないことを考慮し,クエリ集合全体からすべての意味情報を活用するための新しいDeep Semantic Clustering Network (DSCNet)を提案する。
論文 参考訳(メタデータ) (2022-01-14T05:16:33Z) - Boundary-aware Self-supervised Learning for Video Scene Segmentation [20.713635723315527]
シーンセグメンテーション(英: Video scene segmentation)は、ビデオ内のシーン境界を時間的に局所化するタスクである。
本稿では,3つの境界対応プレテキストタスク,ショットシーンマッチング,コンテキストグループマッチング,擬似境界予測を紹介する。
我々はMovieNet-SSegベンチマークの最先端性を実現する。
論文 参考訳(メタデータ) (2022-01-14T02:14:07Z) - Weakly Supervised Temporal Adjacent Network for Language Grounding [96.09453060585497]
本稿では,時間的言語接地のための新しい教師付き時間的隣接ネットワーク(WSTAN)を提案する。
WSTANは、複数のインスタンス学習(MIL)パラダイムにおいて、時間的隣接ネットワークを活用することで、モーダル間のセマンティックアライメントを学習する。
MILブランチと補完ブランチの両方で、自己監督による意味的識別を強化するために、追加の自己識別損失が考案された。
論文 参考訳(メタデータ) (2021-06-30T15:42:08Z) - Reinforcement Learning for Weakly Supervised Temporal Grounding of
Natural Language in Untrimmed Videos [134.78406021194985]
我々は、時間境界のない粗いビデオレベルの言語記述アノテーションにのみアクセス可能な、このタスクの弱教師付き設定に焦点を当てる。
本稿では,時間境界を段階的に洗練する過程を指導するために,強化学習を利用したemphBoundary Adaptive Refinement(BAR)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-18T03:32:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。