論文の概要: Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form
Sentences
- arxiv url: http://arxiv.org/abs/2001.06891v3
- Date: Tue, 24 Mar 2020 21:34:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-08 12:36:51.939068
- Title: Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form
Sentences
- Title(参考訳): 複数形態の文のための時空間ビデオグラウンド
- Authors: Zhu Zhang, Zhou Zhao, Yang Zhao, Qi Wang, Huasheng Liu, Lianli Gao
- Abstract要約: STVGは、トリミングされていないビデオと宣言的/解釈的な文が与えられた場合、クエリされたオブジェクトの時間管をローカライズすることを目的としている。
既存の手法では、非効率なチューブ前世代と新しいオブジェクト関係モデリングの欠如により、STVGタスクに対処できない。
本稿では,この課題に対する宣言型時間グラフ推論ネットワーク(STGRN)を提案する。
- 参考スコア(独自算出の注目度): 107.0776836117313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we consider a novel task, Spatio-Temporal Video Grounding for
Multi-Form Sentences (STVG). Given an untrimmed video and a
declarative/interrogative sentence depicting an object, STVG aims to localize
the spatio-temporal tube of the queried object. STVG has two challenging
settings: (1) We need to localize spatio-temporal object tubes from untrimmed
videos, where the object may only exist in a very small segment of the video;
(2) We deal with multi-form sentences, including the declarative sentences with
explicit objects and interrogative sentences with unknown objects. Existing
methods cannot tackle the STVG task due to the ineffective tube pre-generation
and the lack of object relationship modeling. Thus, we then propose a novel
Spatio-Temporal Graph Reasoning Network (STGRN) for this task. First, we build
a spatio-temporal region graph to capture the region relationships with
temporal object dynamics, which involves the implicit and explicit spatial
subgraphs in each frame and the temporal dynamic subgraph across frames. We
then incorporate textual clues into the graph and develop the multi-step
cross-modal graph reasoning. Next, we introduce a spatio-temporal localizer
with a dynamic selection method to directly retrieve the spatio-temporal tubes
without tube pre-generation. Moreover, we contribute a large-scale video
grounding dataset VidSTG based on video relation dataset VidOR. The extensive
experiments demonstrate the effectiveness of our method.
- Abstract(参考訳): 本稿では,STVG(Spatio-Temporal Video Grounding for Multi-Form Sentences)という新しい課題について考察する。
STVGは、被検体の時空間管の局所化を目的とし、被検体の映像と宣言的・解釈的文を与えられた。
STVGには2つの困難な設定がある: 1) ビデオのごく一部にオブジェクトが存在する場合にのみ、ビデオから時空間的なオブジェクトチューブをローカライズする必要がある; (2) 明示的なオブジェクトを持つ宣言文や未知のオブジェクトを持つ疑問文を含む多形文を扱う。
既存の手法では、非効率なチューブプレジェネレーションとオブジェクト関係モデリングの欠如により、STVGタスクに対処できない。
そこで我々は,この課題に対して新しい時空間グラフ推論ネットワーク(STGRN)を提案する。
まず,各フレームの暗黙的および明示的な空間的部分グラフと,フレーム間の時間的動的部分グラフを含む時間的対象ダイナミクスとの関係を捉えるために,時空間的領域グラフを構築する。
次に、テキストの手がかりをグラフに取り込み、多段階のクロスモーダルグラフ推論を開発する。
次に, 動的選択法を備えた時空間局在化器を導入し, 時空間チューブをチューブプリジェネレーションなしで直接検索する。
さらに,ビデオ関連データセットvidorに基づいて,大規模ビデオグラウンドデータセットvidstgをコントリビュートする。
本手法の有効性を実験的に検証した。
関連論文リスト
- Described Spatial-Temporal Video Detection [33.69632963941608]
空間時間ビデオグラウンドティング(STVG)は、各フレーム内の1つの既存のオブジェクトのみを検出するように定式化される。
本研究では,STVGを空間時空間ビデオ検出(DSTVD)と呼ばれるより実用的な環境に進める。
DVD-STは、クェリに応答してビデオ上のオブジェクトから多数のオブジェクトへのグラウンドングをサポートする。
論文 参考訳(メタデータ) (2024-07-08T04:54:39Z) - Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Grounding [108.79026216923984]
ビデオグラウンドイングは、入力テキストクエリに対応するビデオ内の時間セクションをローカライズすることを目的としている。
本稿では,現在のビデオグラウンドリング手法において,オープン語彙時空間ビデオグラウンドニングタスクを導入することにより,限界に対処する。
論文 参考訳(メタデータ) (2023-12-31T13:53:37Z) - Temporal Sentence Grounding in Streaming Videos [60.67022943824329]
本稿では,ストリーミングビデオにおける時間文グラウンディング(TSGSV)の新たな課題に取り組むことを目的とする。
TSGSVの目標は、ビデオストリームと所定の文クエリの関連性を評価することである。
本研究では,(1)モデルが今後のイベントを学習することを可能にするTwinNet構造,(2)冗長な視覚的フレームを除去する言語誘導型特徴圧縮器の2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T12:30:58Z) - TubeDETR: Spatio-Temporal Video Grounding with Transformers [89.71617065426146]
与えられたテキストクエリに対応するビデオにおいて、アテンポラルチューブをエンコーダでローカライズする問題について考察する。
この課題に対処するために,テキスト条件付きオブジェクト検出における近年の成功に触発された変換器アーキテクチャであるTubeDETRを提案する。
論文 参考訳(メタデータ) (2022-03-30T16:31:49Z) - Spatial-Temporal Transformer for Dynamic Scene Graph Generation [34.190733855032065]
本研究では,(1)入力フレームを用いてフレーム内の視覚的関係を抽出する空間エンコーダと,(2)空間エンコーダの出力を入力とする時間デコーダの2つのコアモジュールからなるニューラルネットワークを提案する。
我々の方法はベンチマークデータセットAction Genome(AG)で検証されている。
論文 参考訳(メタデータ) (2021-07-26T16:30:30Z) - Human-centric Spatio-Temporal Video Grounding With Visual Transformers [70.50326310780407]
我々は,Human Spatio-Temporal Video Grounding(HC-STVG)という新しいタスクを紹介する。
HC-STVGは、所定の記述に基づいて、対象者の時間管をアンビデオからローカライズすることを目的としている。
我々は,S-Temporal Grounding with Visual Transformers (STGVT) という,効果的なベースライン手法を提案する。
論文 参考訳(メタデータ) (2020-11-10T11:23:38Z) - Visual Relation Grounding in Videos [86.06874453626347]
映像における視覚的リレーショナルグラウンドディング(RGV)という小説を探索する。
この課題は、他のビデオ言語タスク(例えば、ビデオグラウンドとビデオ質問応答)に対して支援的な視覚的事実を提供することを目的としている。
構築された階層時間領域上の2つの領域列を協調的に最適化することで、課題に対処する。
実験により,本モデルがベースラインアプローチを著しく上回るだけでなく,視覚的に意味のある事実を生成できることが示された。
論文 参考訳(メタデータ) (2020-07-17T08:20:39Z) - Spatio-Temporal Ranked-Attention Networks for Video Captioning [34.05025890230047]
2つの異なる順序でビデオに対する空間的および時間的注意を結合するモデルを提案する。
我々は、MSVDとMSR-VTTの2つのベンチマークデータセットについて実験を行った。
この結果,STモジュールとTSモジュールの相乗効果は最近の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2020-01-17T01:00:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。