Fugu-MT 論文翻訳(概要): VCBench: A Streaming Counting Benchmark for Spatial-Temporal State Maintenance in Long Videos

論文の概要: VCBench: A Streaming Counting Benchmark for Spatial-Temporal State Maintenance in Long Videos

arxiv url: http://arxiv.org/abs/2603.12703v1
Date: Fri, 13 Mar 2026 06:28:46 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-16 17:38:11.944599
Title: VCBench: A Streaming Counting Benchmark for Spatial-Temporal State Maintenance in Long Videos
Title（参考訳）: VCBench:ロングビデオにおける時空間状態維持のためのストリーミングカウントベンチマーク
Authors: Pengyiang Liu, Zhongyue Shi, Hongye Hao, Qi Fu, Xueting Bi, Siwei Zhang, Xiaoyang Hu, Zitian Wang, Linjiang Huang, Si Liu,
Abstract要約: 我々は,世界的メンテナンス能力の診断のための最小限のプローブとしてカウントするストリーミングカウントベンチマークであるVCBenchを提案する。 VCBenchには、フレーム単位のアノテーションで10,071のイベント発生モーメントとオブジェクト状態変更モーメントを備えた406のビデオが含まれている。数値精度,軌道整合性,時間的認識の3つの相補的指標を設計する。
参考スコア（独自算出の注目度）: 20.761149440325614
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video understanding requires models to continuously track and update world state during playback. While existing benchmarks have advanced video understanding evaluation across multiple dimensions, the observation of how models maintain world state remains insufficient. We propose VCBench, a streaming counting benchmark that repositions counting as a minimal probe for diagnosing world state maintenance capability. We decompose this capability into object counting (tracking currently visible objects vs.\ tracking cumulative unique identities) and event counting (detecting instantaneous actions vs.\ tracking complete activity cycles), forming 8 fine-grained subcategories. VCBench contains 406 videos with frame-by-frame annotations of 10,071 event occurrence moments and object state change moments, generating 1,000 streaming QA pairs with 4,576 query points along timelines. By observing state maintenance trajectories through streaming multi-point queries, we design three complementary metrics to diagnose numerical precision, trajectory consistency, and temporal awareness. Evaluation on mainstream video-language models shows that current models still exhibit significant deficiencies in spatial-temporal state maintenance, particularly struggling with tasks like periodic event counting. VCBench provides a diagnostic framework for measuring and improving state maintenance in video understanding systems.
Abstract（参考訳）: ビデオ理解には、再生中に世界状態を追跡し、更新するモデルが必要である。既存のベンチマークでは、複数の次元にわたる高度な映像理解評価が行われているが、モデルがどのように世界状態を維持するかの観察は依然として不十分である。我々は,世界的メンテナンス能力の診断のための最小限のプローブとしてカウントするストリーミングカウントベンチマークであるVCBenchを提案する。この機能をオブジェクトカウント(現在の可視オブジェクトの追跡)に分解します。関連スポンサーコンテンツ累積的なユニークなアイデンティティのトラッキングとイベントカウント(即時アクションの検出 vs. イベントカウント)。完全なアクティビティサイクルを追跡し,8つのきめ細かいサブカテゴリを形成する。 VCBenchには、フレーム単位のアノテーションで10,071のイベント発生モーメントとオブジェクト状態変化モーメントの406の動画が含まれており、タイムラインに沿って4,576のクエリポイントを持つ1,000のストリーミングQAペアを生成する。ストリーミングマルチポイントクエリによる状態維持トラジェクトリの観察により,数値精度,軌道整合性,時間的認識の3つの相補的指標を設計する。主流のビデオ言語モデルの評価は、現在のモデルが時空間状態維持に重大な欠陥を示しており、特に周期的なイベントカウントのようなタスクに苦慮していることを示している。 VCBenchは、ビデオ理解システムにおける状態メンテナンスの測定と改善のための診断フレームワークを提供する。

関連論文リスト

VC-Bench: Pioneering the Video Connecting Benchmark with a Dataset and Evaluation Metrics [83.61875204972465]
ビデオ接続(Video Connecting)は,ビデオクリップの開始と終了の間にスムーズな中間映像コンテンツを生成するタスクである。このギャップを埋めるため、私たちはビデオ接続に特化した新しいベンチマークであるVC-Benchを提案しました。 VC-Benchは、ビデオ品質スコアVQS、スタート-エンド一貫性スコアSECS、トランジッションスムースネススコアSSの3つの中核的な側面に焦点を当てている。
論文参考訳（メタデータ） (2026-01-27T06:15:12Z)
Convolutions Need Registers Too: HVS-Inspired Dynamic Attention for Video Quality Assessment [1.7188280334580195]
本稿では,ビデオ品質評価のためのグローバルレジスター(DAGR-VQA)を用いた動的注意(Dynamic Attention with Global Registers for Video Quality Assessment)を提案する。本モデルでは,動的サリエンシマップをRGB入力と統合し,空間データを捕捉し,時間変換器を用いて解析することにより,知覚的に一貫した映像品質評価を実現する。
論文参考訳（メタデータ） (2026-01-16T07:25:16Z)
SVAG-Bench: A Large-Scale Benchmark for Multi-Instance Spatio-temporal Video Action Grounding [48.64661382961745]
本研究では,ビデオ中のすべての参照オブジェクトを同時に検出,追跡,時間的ローカライズするモデルを必要とする新しいタスクである,SVAG(Spatio-temporal Video Action Grounding)を紹介する。 SVAG-Benchは688の動画、19,590の注釈付きレコード、903のユニークな動詞からなる大規模ベンチマークである。実験の結果、既存のモデルではSVAG、特に密集したシーンや複雑なシーンでは性能が良くないことがわかった。
論文参考訳（メタデータ） (2025-10-14T22:10:49Z)
SVBench: A Benchmark with Temporal Multi-Turn Dialogues for Streaming Video Understanding [56.78088668917983]
SVBenchは時間的マルチターン質問応答チェーンを用いた先駆的ベンチマークである。半自動アノテーションパイプラインを設計し、49,979対のQA(QA)と1,353本のストリーミングビデオを取得する。対話とストリーミング評価の14モデルから得られた実験結果から, クローズドソースのGPT-4oは他より優れているが, 大部分のオープンソースLVLMは, 長文のストリーミングビデオ理解に苦慮していることがわかった。
論文参考訳（メタデータ） (2025-02-15T14:29:44Z)
Track-On: Transformer-based Online Point Tracking with Memory [34.744546679670734]
オンラインの長期点追跡用に設計されたシンプルなトランスフォーマーベースのモデルであるTrack-Onを紹介する。フル・テンポラル・モデリングに依存する従来の手法とは異なり、我々のモデルは将来のフレームにアクセスすることなくビデオ・フレームを慎重に処理する。推測時に、高い精度で対応点とトラックポイントを識別するためにパッチ分類と改良を用いる。
論文参考訳（メタデータ） (2025-01-30T17:04:11Z)
TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。 GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文参考訳（メタデータ） (2024-10-14T17:59:58Z)
Argus++: Robust Real-time Activity Detection for Unconstrained Video Streams with Overlapping Cube Proposals [85.76513755331318]
Argus++は、制約のないビデオストリームを分析するための堅牢なリアルタイムアクティビティ検出システムである。システム全体としては、スタンドアロンのコンシューマレベルのハードウェア上でのリアルタイム処理に最適化されている。
論文参考訳（メタデータ） (2022-01-14T03:35:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。