論文の概要: Described Spatial-Temporal Video Detection
- arxiv url: http://arxiv.org/abs/2407.05610v1
- Date: Mon, 8 Jul 2024 04:54:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 17:00:01.954667
- Title: Described Spatial-Temporal Video Detection
- Title(参考訳): 記述型時空間ビデオ検出
- Authors: Wei Ji, Xiangyan Liu, Yingfei Sun, Jiajun Deng, You Qin, Ammar Nuwanna, Mengyao Qiu, Lina Wei, Roger Zimmermann,
- Abstract要約: 空間時間ビデオグラウンドティング(STVG)は、各フレーム内の1つの既存のオブジェクトのみを検出するように定式化される。
本研究では,STVGを空間時空間ビデオ検出(DSTVD)と呼ばれるより実用的な環境に進める。
DVD-STは、クェリに応答してビデオ上のオブジェクトから多数のオブジェクトへのグラウンドングをサポートする。
- 参考スコア(独自算出の注目度): 33.69632963941608
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting visual content on language expression has become an emerging topic in the community. However, in the video domain, the existing setting, i.e., spatial-temporal video grounding (STVG), is formulated to only detect one pre-existing object in each frame, ignoring the fact that language descriptions can involve none or multiple entities within a video. In this work, we advance the STVG to a more practical setting called described spatial-temporal video detection (DSTVD) by overcoming the above limitation. To facilitate the exploration of DSTVD, we first introduce a new benchmark, namely DVD-ST. Notably, DVD-ST supports grounding from none to many objects onto the video in response to queries and encompasses a diverse range of over 150 entities, including appearance, actions, locations, and interactions. The extensive breadth and diversity of the DVD-ST dataset make it an exemplary testbed for the investigation of DSTVD. In addition to the new benchmark, we further present two baseline methods for our proposed DSTVD task by extending two representative STVG models, i.e., TubeDETR, and STCAT. These extended models capitalize on tubelet queries to localize and track referred objects across the video sequence. Besides, we adjust the training objectives of these models to optimize spatial and temporal localization accuracy and multi-class classification capabilities. Furthermore, we benchmark the baselines on the introduced DVD-ST dataset and conduct extensive experimental analysis to guide future investigation. Our code and benchmark will be publicly available.
- Abstract(参考訳): 言語表現における視覚的コンテンツの検出は,コミュニティにおいて新たな話題となっている。
しかし、ビデオ領域では、既存の設定、すなわち、空間的時間的ビデオグラウンド(STVG)は、各フレーム内の1つの既存のオブジェクトのみを検出し、言語記述がビデオ内のいかなるエンティティも含まないという事実を無視して定式化される。
本研究では,この制限を克服し,STVGを空間時空間ビデオ検出(DSTVD)と呼ばれるより実用的な環境に進める。
DSTVDの探索を容易にするため,DVD-STという新しいベンチマークを導入する。
特に、DVD-STはクエリに応答して、ビデオ上のオブジェクトから多数のオブジェクトへのグラウンド化をサポートし、外観、アクション、場所、インタラクションを含む150以上のエンティティを含む。
DVD-STデータセットの幅広い幅と多様性により、DSTVDの調査のための模範的なテストベッドとなっている。
提案するDSTVDタスクには,新たなベンチマークに加えて,2つの代表的なSTVGモデル,すなわちTubeDETRとSTCATを拡張した2つのベースライン方式を提案する。
これらの拡張モデルは、ビデオシーケンス全体にわたって参照オブジェクトのローカライズと追跡を行うために、チューブレットクエリを利用する。
さらに、これらのモデルのトレーニング目標を調整し、空間的および時間的局所化精度とマルチクラス分類能力を最適化する。
さらに,導入したDVD-STデータセットのベースラインをベンチマークし,今後の調査を導くための広範な実験分析を行う。
コードとベンチマークは公開されます。
関連論文リスト
- Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Glitch in the Matrix: A Large Scale Benchmark for Content Driven
Audio-Visual Forgery Detection and Localization [20.46053083071752]
新しいデータセットであるLocalized Visual DeepFake (LAV-DF) の提案とベンチマークを行う。
LAV-DFは、戦略的コンテンツ駆動型オーディオ、ビジュアルおよびオーディオ視覚操作で構成されている。
提案するベースライン手法であるBundary Aware Temporal Forgery Detection (BA-TFD)は3次元畳み込みニューラルネットワークに基づくアーキテクチャである。
論文 参考訳(メタデータ) (2023-05-03T08:48:45Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Siamese Tracking with Lingual Object Constraints [28.04334832366449]
本稿では、追加の言語制約を受ける視覚オブジェクトの追跡について検討する。
Liなどとは違って、トラッキングに新たな言語制約を課し、トラッキングの新しいアプリケーションを可能にします。
本手法は,制約の妥当性に基づいて,動画の選択的圧縮を可能にする。
論文 参考訳(メタデータ) (2020-11-23T20:55:08Z) - A Hierarchical Multi-Modal Encoder for Moment Localization in Video
Corpus [31.387948069111893]
テキストクエリにセマンティックにマッチする長いビデオにおいて、短いセグメントを識別する方法を示す。
この問題に対処するために、粗いクリップレベルと微調整フレームレベルの両方でビデオをエンコードするHierArchical Multi-Modal EncodeR (HAMMER)を提案する。
我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するために、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2020-11-18T02:42:36Z) - Human-centric Spatio-Temporal Video Grounding With Visual Transformers [70.50326310780407]
我々は,Human Spatio-Temporal Video Grounding(HC-STVG)という新しいタスクを紹介する。
HC-STVGは、所定の記述に基づいて、対象者の時間管をアンビデオからローカライズすることを目的としている。
我々は,S-Temporal Grounding with Visual Transformers (STGVT) という,効果的なベースライン手法を提案する。
論文 参考訳(メタデータ) (2020-11-10T11:23:38Z) - BiST: Bi-directional Spatio-Temporal Reasoning for Video-Grounded
Dialogues [95.8297116307127]
ビデオにおける高精細クエリのための視覚言語ニューラルフレームワークBi-directional Spatio-Temporal Learning (BiST)を提案する。
具体的には,空間的情報と時間的情報の両方を利用して,2つの特徴空間間の動的情報拡散を学習する。
BiSTは競争性能を達成し、大規模なAVSDベンチマークで適切な応答を生成する。
論文 参考訳(メタデータ) (2020-10-20T07:43:00Z) - Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form
Sentences [107.0776836117313]
STVGは、トリミングされていないビデオと宣言的/解釈的な文が与えられた場合、クエリされたオブジェクトの時間管をローカライズすることを目的としている。
既存の手法では、非効率なチューブ前世代と新しいオブジェクト関係モデリングの欠如により、STVGタスクに対処できない。
本稿では,この課題に対する宣言型時間グラフ推論ネットワーク(STGRN)を提案する。
論文 参考訳(メタデータ) (2020-01-19T19:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。