論文の概要: OmniSTVG: Toward Spatio-Temporal Omni-Object Video Grounding
- arxiv url: http://arxiv.org/abs/2503.10500v1
- Date: Thu, 13 Mar 2025 16:02:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:52:38.037827
- Title: OmniSTVG: Toward Spatio-Temporal Omni-Object Video Grounding
- Title(参考訳): OmniSTVG: 時空間オムニオブジェクトのグラウンド化に向けて
- Authors: Jiali Yao, Xinran Deng, Xin Gu, Mengrui Dai, Bing Fan, Zhipeng Zhang, Yan Huang, Heng Fan, Libo Zhang,
- Abstract要約: OmniSTVGは,ビデオからのテキストクエリで言及された対象を空間的,時間的にすべてローカライズすることを目的とした,新しいSTVGタスクである。
我々は,OmniSTVGの探索を容易にするために,OmniSTVG専用の大規模ベンチマークであるBOSTVGを紹介する。
BOSTVGは10,018本のビデオと10.2Mのフレームで構成され、多様なシナリオから287のクラスを幅広く選択している。
- 参考スコア(独自算出の注目度): 22.501467791559097
- License:
- Abstract: In this paper, we propose spatio-temporal omni-object video grounding, dubbed OmniSTVG, a new STVG task that aims at localizing spatially and temporally all targets mentioned in the textual query from videos. Compared to classic STVG locating only a single target, OmniSTVG enables localization of not only an arbitrary number of text-referred targets but also their interacting counterparts in the query from the video, making it more flexible and practical in real scenarios for comprehensive understanding. In order to facilitate exploration of OmniSTVG, we introduce BOSTVG, a large-scale benchmark dedicated to OmniSTVG. Specifically, our BOSTVG consists of 10,018 videos with 10.2M frames and covers a wide selection of 287 classes from diverse scenarios. Each sequence in BOSTVG, paired with a free-form textual query, encompasses a varying number of targets ranging from 1 to 10. To ensure high quality, each video is manually annotated with meticulous inspection and refinement. To our best knowledge, BOSTVG is to date the first and the largest benchmark for OmniSTVG. To encourage future research, we introduce a simple yet effective approach, named OmniTube, which, drawing inspiration from Transformer-based STVG methods, is specially designed for OmniSTVG and demonstrates promising results. By releasing BOSTVG, we hope to go beyond classic STVG by locating every object appearing in the query for more comprehensive understanding, opening up a new direction for STVG. Our benchmark, model, and results will be released at https://github.com/JellyYao3000/OmniSTVG.
- Abstract(参考訳): 本稿では,ビデオからのテキストクエリで言及された対象を空間的かつ時間的にすべてローカライズすることを目的とした新しいSTVGタスクであるOmniSTVGと呼ばれる時空間オムニオブジェクトビデオグラウンドディングを提案する。
従来のSTVGが1つのターゲットのみを配置するのに対し、OmniSTVGは任意の数のテキスト参照ターゲットのローカライズだけでなく、ビデオからのクエリで対話するターゲットのローカライズを可能にする。
我々は,OmniSTVGの探索を容易にするために,OmniSTVG専用の大規模ベンチマークであるBOSTVGを紹介する。
具体的には、BOSTVGは10,018の動画と10.2Mのフレームで構成され、多様なシナリオから287のクラスを幅広くカバーしています。
自由形式のテキストクエリと組み合わせたBOSTVGの各シーケンスは、1から10までのさまざまなターゲットを含む。
高品質を確保するため、各ビデオに精巧な検査と精査を施して手動でアノテートする。
私たちの知る限りでは、BOSTVGはOmniSTVGの最初の、そして最大のベンチマークです。
今後の研究を促進するために,TransformerベースのSTVG手法からインスピレーションを得て,OmniSTVG用に特別に設計し,有望な結果を示す,シンプルなOmniTubeという手法を導入する。
BOSTVGをリリースすることによって、クエリに現れるすべてのオブジェクトを特定し、より包括的な理解をし、STVGの新しい方向性を開くことで、従来のSTVGを超えることを期待しています。
ベンチマーク、モデル、結果はhttps://github.com/JellyYao3000/OmniSTVG.comで公開されます。
関連論文リスト
- Knowing Your Target: Target-Aware Transformer Makes Better Spatio-Temporal Video Grounding [20.906378094998303]
既存のTransformerベースのSTVGアプローチは、単に0を使用するオブジェクトクエリのセットを利用することが多い。
単純さにもかかわらず、これらのゼロオブジェクトクエリは、ターゲット固有の手がかりが欠如しているため、識別対象情報の学習が困難である。
STVG (Target-Aware Transformer for STVG) を新たに導入し,ビデオテキストペアからターゲット固有のキューを探索することで,オブジェクトクエリを適応的に生成する手法を提案する。
論文 参考訳(メタデータ) (2025-02-16T15:38:33Z) - Described Spatial-Temporal Video Detection [33.69632963941608]
空間時間ビデオグラウンドティング(STVG)は、各フレーム内の1つの既存のオブジェクトのみを検出するように定式化される。
本研究では,STVGを空間時空間ビデオ検出(DSTVD)と呼ばれるより実用的な環境に進める。
DVD-STは、クェリに応答してビデオ上のオブジェクトから多数のオブジェクトへのグラウンドングをサポートする。
論文 参考訳(メタデータ) (2024-07-08T04:54:39Z) - Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Grounding [108.79026216923984]
ビデオグラウンドイングは、入力テキストクエリに対応するビデオ内の時間セクションをローカライズすることを目的としている。
本稿では,現在のビデオグラウンドリング手法において,オープン語彙時空間ビデオグラウンドニングタスクを導入することにより,限界に対処する。
論文 参考訳(メタデータ) (2023-12-31T13:53:37Z) - UniVTG: Towards Unified Video-Language Temporal Grounding [52.56732639951834]
Video Temporal Grounding (VTG)は、カスタム言語クエリに従ってビデオのターゲットクリップをグラウンドすることを目的としている。
我々は、UniVTGと呼ばれる多様なVTGラベルとタスクを3方向に沿って統一することを提案する。
統合されたフレームワークのおかげで、大規模な多様なラベルから事前学習する時間的基盤を解き放つことができます。
論文 参考訳(メタデータ) (2023-07-31T14:34:49Z) - Video Object Segmentation in Panoptic Wild Scenes [31.701108453289162]
本稿では,映像オブジェクトの半教師付きセグメンテーション(VOS)をパノスコープのワイルドシーンに導入する。
本稿では,大規模ベンチマークとベースライン手法を提案する。
実験の結果, VIPOSeg は VOS モデルの性能を向上させるだけでなく, 総合的に評価できることがわかった。
論文 参考訳(メタデータ) (2023-05-08T05:46:59Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - Human-centric Spatio-Temporal Video Grounding With Visual Transformers [70.50326310780407]
我々は,Human Spatio-Temporal Video Grounding(HC-STVG)という新しいタスクを紹介する。
HC-STVGは、所定の記述に基づいて、対象者の時間管をアンビデオからローカライズすることを目的としている。
我々は,S-Temporal Grounding with Visual Transformers (STGVT) という,効果的なベースライン手法を提案する。
論文 参考訳(メタデータ) (2020-11-10T11:23:38Z) - LaSOT: A High-quality Large-scale Single Object Tracking Benchmark [67.96196486540497]
高品質な大規模オブジェクト追跡ベンチマークであるLaSOTを提案する。
LaSOTには85のオブジェクトクラスがあり、合計で1,550のフレームが387万フレーム以上ある。
それぞれのビデオフレームは、慎重に手動でバウンディングボックスでアノテートされます。これにより、LaSOTは、私たちの知る限り、最も高密度にアノテートされたトラッキングベンチマークになります。
論文 参考訳(メタデータ) (2020-09-08T00:31:56Z) - Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form
Sentences [107.0776836117313]
STVGは、トリミングされていないビデオと宣言的/解釈的な文が与えられた場合、クエリされたオブジェクトの時間管をローカライズすることを目的としている。
既存の手法では、非効率なチューブ前世代と新しいオブジェクト関係モデリングの欠如により、STVGタスクに対処できない。
本稿では,この課題に対する宣言型時間グラフ推論ネットワーク(STGRN)を提案する。
論文 参考訳(メタデータ) (2020-01-19T19:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。