論文の概要: A Survey on Temporal Sentence Grounding in Videos
- arxiv url: http://arxiv.org/abs/2109.08039v1
- Date: Thu, 16 Sep 2021 15:01:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-17 14:09:31.879709
- Title: A Survey on Temporal Sentence Grounding in Videos
- Title(参考訳): ビデオにおける時間文接地に関する調査
- Authors: Xiaohan Lan, Yitian Yuan, Xin Wang, Zhi Wang and Wenwu Zhu
- Abstract要約: TSGVは、ある文クエリに関して、未トリミングされたビデオから1つのターゲットセグメントをローカライズすることを目的としている。
我々の知る限りでは、これは時間的文接地に関する最初の体系的な調査である。
- 参考スコア(独自算出の注目度): 69.13365006222251
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal sentence grounding in videos~(TSGV), which aims to localize one
target segment from an untrimmed video with respect to a given sentence query,
has drawn increasing attentions in the research community over the past few
years. Different from the task of temporal action localization, TSGV is more
flexible since it can locate complicated activities via natural languages,
without restrictions from predefined action categories. Meanwhile, TSGV is more
challenging since it requires both textual and visual understanding for
semantic alignment between two modalities~(i.e., text and video). In this
survey, we give a comprehensive overview for TSGV, which i) summarizes the
taxonomy of existing methods, ii) provides a detailed description of the
evaluation protocols~(i.e., datasets and metrics) to be used in TSGV, and iii)
in-depth discusses potential problems of current benchmarking designs and
research directions for further investigations. To the best of our knowledge,
this is the first systematic survey on temporal sentence grounding. More
specifically, we first discuss existing TSGV approaches by grouping them into
four categories, i.e., two-stage methods, end-to-end methods, reinforcement
learning-based methods, and weakly supervised methods. Then we present the
benchmark datasets and evaluation metrics to assess current research progress.
Finally, we discuss some limitations in TSGV through pointing out potential
problems improperly resolved in the current evaluation protocols, which may
push forwards more cutting edge research in TSGV. Besides, we also share our
insights on several promising directions, including three typical tasks with
new and practical settings based on TSGV.
- Abstract(参考訳): ビデオにおける時間文グラウンドリング(TSGV)は、与えられた文問合せに関する未編集ビデオから1つの対象セグメントをローカライズすることを目的としており、ここ数年研究コミュニティで注目されている。
時間的行動の局所化のタスクと異なり、tsgvは自然言語による複雑なアクティビティを事前に定義されたアクションカテゴリから制限することなく見つけることができるため、より柔軟である。
一方、TSGVは2つのモダリティ(テキストとビデオ)間のセマンティックアライメントにテキストと視覚の両方の理解を必要とするため、より難しい。
本調査では,TSGVの概要について概観する。
一 既存の方法の分類を要約すること。
ii) tsgvで使用する評価プロトコルの詳細な説明(すなわち、データセットとメトリクス)を提供する。
三 更なる調査のための現在のベンチマーク設計の潜在的な問題及び研究の方向性を詳細に検討すること。
我々の知る限りでは、これは時間的文接地に関する最初の体系的な調査である。
具体的には,2段階の手法,エンドツーエンドの手法,強化学習に基づく手法,弱教師付き手法の4つのカテゴリに分類することで,既存のTSGVアプローチについて議論する。
次に、現在の研究進捗を評価するためのベンチマークデータセットと評価指標を示す。
最後に,TSGVにおける最先端の研究を推し進めるであろう,現在の評価プロトコルで不適切に解決された潜在的な問題を指摘することによって,TSGVのいくつかの制限について論じる。
さらに、TSGVに基づいた新しい実践的な設定を備えた3つの典型的なタスクを含む、いくつかの有望な方向性に関する洞察も共有しています。
関連論文リスト
- How Texts Help? A Fine-grained Evaluation to Reveal the Role of Language in Vision-Language Tracking [23.551036494221222]
視覚言語追跡(VLT)は、テキスト情報を組み込むことで、従来の単一のオブジェクト追跡を拡張する。
現行のVLTトラッカーは、複数のベンチマークでの単一モダリティ方式に比べて性能が劣ることが多い。
VLTトラッカーの最初のきめ細かい評価フレームワークであるVLTVerseを提案する。
論文 参考訳(メタデータ) (2024-11-23T16:31:40Z) - Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding [70.31050639330603]
ビデオ段落の接頭辞は、意味的関係と時間的順序を持つ複数の文を、トリミングされていないビデオからローカライズすることを目的としている。
既存のVPGアプローチは、かなりの数の時間ラベルに大きく依存している。
我々は、時間的アノテーションの必要性を排除するために、Wakly-Supervised Video paragraph Grounding (WSVPG)を導入し、探索する。
論文 参考訳(メタデータ) (2024-03-18T04:30:31Z) - Proposal-Based Multiple Instance Learning for Weakly-Supervised Temporal
Action Localization [98.66318678030491]
微弱に監督された時間的行動ローカライゼーションは、トレーニング中にビデオレベルのカテゴリラベルのみを持つ未トリミングビデオのアクションをローカライズし、認識することを目的としている。
本稿では,提案手法をベースとしたP-MIL(Multiple Instance Learning)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T02:48:04Z) - Temporal Action Segmentation: An Analysis of Modern Techniques [43.725939095985915]
ビデオにおける時間的アクションセグメンテーション(TAS)は、複数のアクションクラスを持つ分長ビデオにおいて、ビデオフレームを密に識別することを目的としている。
近年のTAS技術の急速な発展にもかかわらず、これらの分野では体系的な調査は行われていない。
この調査は、最も重要なコントリビューションとトレンドを分析し、要約します。
論文 参考訳(メタデータ) (2022-10-19T07:40:47Z) - LocVTP: Video-Text Pre-training for Temporal Localization [71.74284893790092]
Video-Text Pre-trainingは、大規模なWebビデオからさまざまな下流タスクの転送可能な表現を学ぶことを目的としている。
本稿では,現在のVTP手法とローカライズタスクの非互換性を実験的に解析し,実証する。
ローカライズ指向のビデオテキスト事前学習フレームワークであるLocVTPを提案する。
論文 参考訳(メタデータ) (2022-07-21T08:43:51Z) - The Elements of Temporal Sentence Grounding in Videos: A Survey and
Future Directions [60.54191298092136]
ビデオの時間文グラウンド(TSGV)は、意味不明のビデオから言語クエリに対応する時間モーメントを検索することを目的としている。
本調査では,TSGVの基本概念と今後の研究方向性について概説する。
論文 参考訳(メタデータ) (2022-01-20T09:10:20Z) - Weakly-Supervised Multi-Level Attentional Reconstruction Network for
Grounding Textual Queries in Videos [73.4504252917816]
ビデオ中のテキストクエリを時間的にグラウンド化するタスクは、与えられたクエリに意味的に対応する1つのビデオセグメントをローカライズすることである。
既存のアプローチのほとんどは、トレーニングのためのセグメント-セマンスペア(時間アノテーション)に依存しており、通常は現実のシナリオでは利用できない。
トレーニング段階では,映像文ペアのみに依存するマルチレベル注意再構築ネットワーク(MARN)と呼ばれる,効果的な弱教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-03-16T07:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。