論文の概要: SOVABench: A Vehicle Surveillance Action Retrieval Benchmark for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2601.04824v2
- Date: Fri, 09 Jan 2026 10:27:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 13:49:32.492846
- Title: SOVABench: A Vehicle Surveillance Action Retrieval Benchmark for Multimodal Large Language Models
- Title(参考訳): SOVABench:マルチモーダル大規模言語モデルのための車両監視行動検索ベンチマーク
- Authors: Oriol Rabasseda, Zenjie Li, Kamal Nasrollahi, Sergio Escalera,
- Abstract要約: 我々は,車両関連行動を中心とした監視映像から構築した実世界検索ベンチマークであるSOVABenchを紹介する。
SOVABenchは、2つの評価プロトコル(ペア内とペア内)を定義し、相互行為の識別と時間方向の理解を評価する。
本稿では,MLLMによる画像とビデオの両方の記述から解釈可能な埋め込みを生成するための学習自由フレームワークを提案する。
- 参考スコア(独自算出の注目度): 43.77182813030722
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic identification of events and recurrent behavior analysis are critical for video surveillance. However, most existing content-based video retrieval benchmarks focus on scene-level similarity and do not evaluate the action discrimination required in surveillance. To address this gap, we introduce SOVABench (Surveillance Opposite Vehicle Actions Benchmark), a real-world retrieval benchmark built from surveillance footage and centered on vehicle-related actions. SOVABench defines two evaluation protocols (inter-pair and intra-pair) to assess cross-action discrimination and temporal direction understanding. Although action distinctions are generally intuitive for human observers, our experiments show that they remain challenging for state-of-the-art vision and multimodal models. Leveraging the visual reasoning and instruction-following capabilities of Multimodal Large Language Models (MLLMs), we present a training-free framework for producing interpretable embeddings from MLLM-generated descriptions for both images and videos. The framework achieves strong performance on SOVABench as well as on several spatial and counting benchmarks where contrastive Vision-Language Models often fail. The code, annotations, and instructions to construct the benchmark are publicly available.
- Abstract(参考訳): 映像監視においては,イベントの自動識別と繰り返し動作解析が重要である。
しかし、既存のコンテンツベースビデオ検索ベンチマークではシーンレベルの類似性に重点を置いており、監視に必要な行動差別を評価していない。
このギャップに対処するために、監視映像から構築され、車両関連のアクションを中心に構築された現実世界のベンチマークであるSOVABench(Surveillance Opposite Vehicle Actions Benchmark)を紹介する。
SOVABenchは、2つの評価プロトコル(ペア内とペア内)を定義し、相互行為の識別と時間方向の理解を評価する。
動作の区別は一般に人間の観察者にとって直感的であるが、我々の実験は、最先端の視覚モデルやマルチモーダルモデルでは依然として困難であることを示している。
MLLM(Multimodal Large Language Models)の視覚的推論と命令追従機能を活用し,MLLMが生成した画像とビデオの両方の解釈可能な埋め込みを生成するための学習自由フレームワークを提案する。
このフレームワークは、SOVABenchと、対照的なビジョンランゲージモデルがしばしば失敗するいくつかの空間的およびカウントベンチマーク上で、強力なパフォーマンスを達成する。
ベンチマークを構築するためのコード、アノテーション、インストラクションが公開されている。
関連論文リスト
- Understanding the Fine-Grained Knowledge Capabilities of Vision-Language Models [42.79282247484499]
視覚言語モデル(VLM)は、視覚的推論、文書理解、マルチモーダル対話など、幅広い視覚的質問応答ベンチマークで大きく進歩している。
最近の研究では、これらのモデルが、きめ細かい視覚的知識をテストする従来の画像分類ベンチマークに後れを取っていることが示されている。
我々は、細粒度分類ベンチマークにおいて、多数の最近のVLMをテストし、細粒度知識と他のビジョンベンチマークとの切り離しにおける潜在的な要因を特定した。
論文 参考訳(メタデータ) (2026-02-19T22:07:29Z) - SVAG-Bench: A Large-Scale Benchmark for Multi-Instance Spatio-temporal Video Action Grounding [48.64661382961745]
本研究では,ビデオ中のすべての参照オブジェクトを同時に検出,追跡,時間的ローカライズするモデルを必要とする新しいタスクである,SVAG(Spatio-temporal Video Action Grounding)を紹介する。
SVAG-Benchは688の動画、19,590の注釈付きレコード、903のユニークな動詞からなる大規模ベンチマークである。
実験の結果、既存のモデルではSVAG、特に密集したシーンや複雑なシーンでは性能が良くないことがわかった。
論文 参考訳(メタデータ) (2025-10-14T22:10:49Z) - HumanVideo-MME: Benchmarking MLLMs for Human-Centric Video Understanding [120.84817886550765]
MLLM(Multimodal Large Language Models)は、画像とビデオの両方を含む視覚的理解タスクにおいて、大きな進歩を見せている。
既存の人間中心のベンチマークは、主にビデオ生成の品質と行動認識を強調し、人間中心のシナリオに必要な知覚と認知の能力を見落としている。
我々は,人間中心のビデオ理解におけるMLLMのより総合的な評価を提供するために,厳格にキュレートされたベンチマークを提案する。
論文 参考訳(メタデータ) (2025-07-07T11:52:24Z) - From Sight to Insight: Unleashing Eye-Tracking in Weakly Supervised Video Salient Object Detection [60.11169426478452]
本稿では,弱い監督下での健全な物体の検出を支援するために,固定情報を導入することを目的とする。
特徴学習過程における位置と意味のガイダンスを提供するために,位置と意味の埋め込み (PSE) モジュールを提案する。
Intra-Inter Mixed Contrastive (MCII)モデルは、弱い監督下での時間的モデリング能力を改善する。
論文 参考訳(メタデータ) (2025-06-30T05:01:40Z) - STSBench: A Spatio-temporal Scenario Benchmark for Multi-modal Large Language Models in Autonomous Driving [16.602141801221364]
STSBenchは、自律運転のための視覚言語モデル(VLM)の総合的な理解をベンチマークするためのフレームワークである。
このベンチマークでは、複数のビューにまたがる43の多様なシナリオが特徴で、その結果、971人の人間による検証された複数選択の質問が生まれている。
徹底的な評価により、複雑な環境における基本的なトラフィックダイナミクスを推論する既存のモデルの能力の欠点が明らかになる。
論文 参考訳(メタデータ) (2025-06-06T16:25:22Z) - V-MAGE: A Game Evaluation Framework for Assessing Vision-Centric Capabilities in Multimodal Large Language Models [84.27290155010533]
本稿では,視覚中心型多機能ゲーム評価(V-MAGE)について紹介する。
V-MAGEは、30以上の慎重に構築された評価シナリオからなる5つの異なるビデオゲームを特徴としている。
V-MAGEは、動的かつインタラクティブな設定において、MLLMの視覚的および推論能力を改善するために実行可能な洞察を提供する。
論文 参考訳(メタデータ) (2025-04-08T15:43:01Z) - PairBench: Are Vision-Language Models Reliable at Comparing What They See? [16.49586486795478]
タスクに応じて大規模視覚言語モデル(VLM)を自動評価するためのフレームワークであるPairBenchを提案する。
提案手法では,人間アノテーションとの整合性,ペアオーダ間の整合性,分散のスムーズさ,プロンプトによる可制御性という,信頼性の高い比較のための4つの重要な指標を導入している。
私たちの分析では、モデルがすべての指標を一貫して上回り、それぞれが異なる強みと弱みを示すことは明らかです。
論文 参考訳(メタデータ) (2025-02-21T04:53:11Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。