論文の概要: OmniGround: A Comprehensive Spatio-Temporal Grounding Benchmark for Real-World Complex Scenarios
- arxiv url: http://arxiv.org/abs/2511.16937v1
- Date: Fri, 21 Nov 2025 04:23:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.882092
- Title: OmniGround: A Comprehensive Spatio-Temporal Grounding Benchmark for Real-World Complex Scenarios
- Title(参考訳): OmniGround: 実世界の複合シナリオのための総合的な時空間グラウンドベンチマーク
- Authors: Hong Gao, Jingyu Wu, Xiangkai Xu, Kangni Xie, Yunchen Zhang, Bin Zhong, Xurui Gao, Min-Ling Zhang,
- Abstract要約: OmniGroundは、81のカテゴリにまたがる3,475の動画と複雑な現実世界のクエリを備えた総合的なベンチマークである。
また、4つの相補的な次元にわたるデータセット品質を定量化するシステム評価フレームワークであるDeepSTGについても紹介する。
実験では、PG-TAFはm_tIoUとm_vIoUを25.6%、35.6%改善し、4つのベンチマークで一貫した利得を得た。
- 参考スコア(独自算出の注目度): 39.58602686069029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatio-Temporal Video Grounding (STVG) aims to localize target objects in videos based on natural language descriptions. Despite recent advances in Multimodal Large Language Models, a significant gap remains between current models and real-world demands involving diverse objects and complex queries. We attribute this to limited benchmark scope, causing models to exhibit category bias, oversimplified reasoning, and poor linguistic robustness. To address these limitations, we introduce OmniGround, a comprehensive benchmark with 3,475 videos spanning 81 categories and complex real-world queries. We propose the Forward-Backward-Refinement annotation pipeline that combines multi-directional tracking with intelligent error correction for high-quality labels. We further introduce DeepSTG, a systematic evaluation framework quantifying dataset quality across four complementary dimensions beyond superficial statistics. Evaluations reveal performance average drop of 10.4% on complex real-world scenes, particularly with small/occluded objects and intricate spatial relations. Motivated by these, we propose PG-TAF, a training-free two-stage framework decomposing STVG into high-level temporal grounding and fine-grained spatio-temporal propagation. Experiments demonstrate PG-TAF achieves 25.6% and 35.6% improvements in m\_tIoU and m\_vIoU on OmniGround with consistent gains across four benchmarks.
- Abstract(参考訳): Spatio-Temporal Video Grounding (STVG) は、自然言語記述に基づくビデオ内の対象物をローカライズすることを目的としている。
近年のマルチモーダル大規模言語モデルの発展にもかかわらず、現在のモデルと多様なオブジェクトや複雑なクエリを含む現実世界の要求との間には大きなギャップが残っている。
我々はこれを限られたベンチマーク範囲に当てはめ、モデルがカテゴリバイアス、過度に単純化された推論、言語的堅牢性を示す。
これらの制限に対処するため、81のカテゴリと複雑な実世界のクエリにまたがる3,475の動画からなる包括的なベンチマークであるOmniGroundを紹介した。
高品質ラベルに対する多方向追跡とインテリジェントな誤り訂正を組み合わせたフォワード・バックワード・リファインメント・アノテーションパイプラインを提案する。
さらに,表層統計を超越した4次元のデータセット品質を定量的に評価するシステム評価フレームワークであるDeepSTGを紹介する。
評価では、複雑な現実世界のシーン、特に小さな/隠されたオブジェクトと複雑な空間関係において、パフォーマンス平均は10.4%低下している。
PG-TAFは,STVGを高レベルな時間的接地と微細な時空間伝播に分解する訓練自由な2段階のフレームワークである。
実験では、PG-TAFはOmniGround上でm\_tIoUとm\_vIoUを25.6%、35.6%改善し、4つのベンチマークで一貫したゲインを得た。
関連論文リスト
- Prompt-Guided Spatial Understanding with RGB-D Transformers for Fine-Grained Object Relation Reasoning [7.670666668651702]
我々は,Track 3 2025 AI City Challengeで導入された物理AI空間情報ウェアハウスデータセットに,専用の空間推論フレームワークを導入する。
提案手法は,入力プロンプトに直接マスク次元をバウンディングボックス座標の形で埋め込むことにより,空間的理解を高める。
私たちの包括的なパイプラインは73.0606の最終的なスコアを獲得し、全体の4位を公開リーダボードに位置づけています。
論文 参考訳(メタデータ) (2025-10-13T22:51:20Z) - Remote Sensing-Oriented World Model [14.021235530589246]
世界モデルは、直接観測を超えた世界状態の予測と推論によって、人工知能のポテンシャルを示してきた。
既存のアプローチは、主に合成環境や制約されたシーン設定で評価される。
本稿では、リモートセンシングにおける世界モデリングのための最初のフレームワークを導入することにより、これらのギャップを埋める。
論文 参考訳(メタデータ) (2025-09-22T14:02:39Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - SURDS: Benchmarking Spatial Understanding and Reasoning in Driving Scenarios with Vision Language Models [15.50826328938879]
視覚言語モデル(VLM)の空間的推論能力を評価するためのベンチマークであるSURDSを紹介する。
nuScenesデータセットに基づいて構築されたSURDSは、41,080の視覚要求回答トレーニングインスタンスと9,250の評価サンプルで構成されている。
本研究では,空間的に接地された報酬信号を利用した強化学習に基づくアライメント手法を提案する。
論文 参考訳(メタデータ) (2024-11-20T08:14:01Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - Coupling Global Context and Local Contents for Weakly-Supervised
Semantic Segmentation [54.419401869108846]
Weakly Supervised Semantic (WSSS)モデルを提案する。
グローバルなオブジェクトコンテキストを異なる粒度空間でキャプチャするために,フレキシブルなコンテキストアグリゲーションモジュールを提案する。
局所的な細粒度を集約するために、ボトムアップパラメータ学習可能な方法で意味的に一貫した特徴融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-04-18T15:29:23Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。