Fugu-MT 論文翻訳(概要): Human-centric Spatio-Temporal Video Grounding With Visual Transformers

論文の概要: Human-centric Spatio-Temporal Video Grounding With Visual Transformers

arxiv url: http://arxiv.org/abs/2011.05049v2
Date: Wed, 2 Jun 2021 06:51:34 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-27 07:06:44.522418
Title: Human-centric Spatio-Temporal Video Grounding With Visual Transformers
Title（参考訳）: 視覚トランスフォーマーを用いた人間中心時空間ビデオグラウンディング
Authors: Zongheng Tang, Yue Liao, Si Liu, Guanbin Li, Xiaojie Jin, Hongxu Jiang, Qian Yu, Dong Xu
Abstract要約: 我々は,Human Spatio-Temporal Video Grounding(HC-STVG)という新しいタスクを紹介する。 HC-STVGは、所定の記述に基づいて、対象者の時間管をアンビデオからローカライズすることを目的としている。我々は,S-Temporal Grounding with Visual Transformers (STGVT) という,効果的なベースライン手法を提案する。
参考スコア（独自算出の注目度）: 70.50326310780407
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we introduce a novel task - Humancentric Spatio-Temporal Video Grounding (HC-STVG). Unlike the existing referring expression tasks in images or videos, by focusing on humans, HC-STVG aims to localize a spatiotemporal tube of the target person from an untrimmed video based on a given textural description. This task is useful, especially for healthcare and security-related applications, where the surveillance videos can be extremely long but only a specific person during a specific period of time is concerned. HC-STVG is a video grounding task that requires both spatial (where) and temporal (when) localization. Unfortunately, the existing grounding methods cannot handle this task well. We tackle this task by proposing an effective baseline method named Spatio-Temporal Grounding with Visual Transformers (STGVT), which utilizes Visual Transformers to extract cross-modal representations for video-sentence matching and temporal localization. To facilitate this task, we also contribute an HC-STVG dataset consisting of 5,660 video-sentence pairs on complex multi-person scenes. Specifically, each video lasts for 20 seconds, pairing with a natural query sentence with an average of 17.25 words. Extensive experiments are conducted on this dataset, demonstrating the newly-proposed method outperforms the existing baseline methods.
Abstract（参考訳）: 本研究では,Humancentric Spatio-Temporal Video Grounding (HC-STVG)を提案する。画像やビデオにおける既存の参照表現タスクとは異なり、hc-stvgは対象者の時空間的チューブを、所定のテクストラル記述に基づいた未トリミングビデオからローカライズすることを目的としている。このタスクは、特に医療やセキュリティ関連のアプリケーションにおいて有用であり、監視ビデオは非常に長いが、特定の期間に特定の人物のみが関与する。 HC-STVGは、空間的(場所)と時間的(場所)の両方のローカライゼーションを必要とするビデオグラウンドタスクである。残念ながら、既存の接地方法は、このタスクをうまく扱えない。この課題に対処するために,視覚変換器を用いた時空間グラウンドリング (STGVT) という効果的なベースライン手法を提案し,ビデオ文マッチングと時間的ローカライゼーションのクロスモーダル表現を抽出する。この作業を容易にするため,複雑な多人数シーンに5,660対の映像文からなるHC-STVGデータセットを寄贈した。具体的には、各ビデオは20秒間続き、自然の問合せ文と平均17.25ワードをペアリングする。このデータセットで広範囲な実験が行われ、新しく導入されたメソッドが既存のベースラインメソッドよりも優れています。

関連論文リスト

ChatVTG: Video Temporal Grounding via Chat with Video Dialogue Large Language Models [53.9661582975843]
Video Temporal Groundingは、特定のセグメントを、与えられた自然言語クエリに対応する未トリミングビデオ内でグラウンドすることを目的としている。既存のVTG手法は、主に教師付き学習と広範囲な注釈付きデータに依存しており、それは労働集約的であり、人間の偏見に起因している。本稿では,ビデオ対話大言語モデル(LLM)をゼロショットビデオ時間グラウンドに利用する新しい手法ChatVTGを提案する。
論文参考訳（メタデータ） (2024-10-01T08:27:56Z)
Described Spatial-Temporal Video Detection [33.69632963941608]
空間時間ビデオグラウンドティング(STVG)は、各フレーム内の1つの既存のオブジェクトのみを検出するように定式化される。本研究では,STVGを空間時空間ビデオ検出(DSTVD)と呼ばれるより実用的な環境に進める。 DVD-STは、クェリに応答してビデオ上のオブジェクトから多数のオブジェクトへのグラウンドングをサポートする。
論文参考訳（メタデータ） (2024-07-08T04:54:39Z)
What, when, and where? -- Self-Supervised Spatio-Temporal Grounding in Untrimmed Multi-Action Videos from Narrated Instructions [55.574102714832456]
時空間グラウンド(時空間グラウンド)は、空間と時間における事象を局所化するタスクを指す。このタスクのモデルは、通常、人間の注釈付き文とバウンディングボックスの監督によって訓練される。我々は,局所的な表現学習と,より詳細な空間情報に焦点を合わせ,高レベルな表現を捉えるグローバルな表現を組み合わせる。
論文参考訳（メタデータ） (2023-03-29T19:38:23Z)
TubeDETR: Spatio-Temporal Video Grounding with Transformers [89.71617065426146]
与えられたテキストクエリに対応するビデオにおいて、アテンポラルチューブをエンコーダでローカライズする問題について考察する。この課題に対処するために,テキスト条件付きオブジェクト検出における近年の成功に触発された変換器アーキテクチャであるTubeDETRを提案する。
論文参考訳（メタデータ） (2022-03-30T16:31:49Z)
Visual Relation Grounding in Videos [86.06874453626347]
映像における視覚的リレーショナルグラウンドディング(RGV)という小説を探索する。この課題は、他のビデオ言語タスク(例えば、ビデオグラウンドとビデオ質問応答)に対して支援的な視覚的事実を提供することを目的としている。構築された階層時間領域上の2つの領域列を協調的に最適化することで、課題に対処する。実験により,本モデルがベースラインアプローチを著しく上回るだけでなく,視覚的に意味のある事実を生成できることが示された。
論文参考訳（メタデータ） (2020-07-17T08:20:39Z)
Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form Sentences [107.0776836117313]
STVGは、トリミングされていないビデオと宣言的/解釈的な文が与えられた場合、クエリされたオブジェクトの時間管をローカライズすることを目的としている。既存の手法では、非効率なチューブ前世代と新しいオブジェクト関係モデリングの欠如により、STVGタスクに対処できない。本稿では,この課題に対する宣言型時間グラフ推論ネットワーク(STGRN)を提案する。
論文参考訳（メタデータ） (2020-01-19T19:53:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。