論文の概要: ForeSea: AI Forensic Search with Multi-modal Queries for Video Surveillance
- arxiv url: http://arxiv.org/abs/2603.22872v1
- Date: Tue, 24 Mar 2026 07:15:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.351939
- Title: ForeSea: AI Forensic Search with Multi-modal Queries for Video Surveillance
- Title(参考訳): ForeSea: ビデオサーベイランスのためのマルチモーダルクエリによるAIForensic Search
- Authors: Hyojin Park, Yi Li, Janghoon Cho, Sungha Choi, Jungsoo Lee, Taotao Jing, Shuai Zhang, Munawar Hayat, Dashan Gao, Ning Bi, Fatih Porikli,
- Abstract要約: ForeSeaは3段階のプラグアンドプレイパイプラインを備えたAI法医学検索システムである。
ForeSeaは従来のビデオRAGモデルよりも精度を3.5%向上し、一時IoUは11.0向上した。
- 参考スコア(独自算出の注目度): 56.15563109738998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite decades of work, surveillance still struggles to find specific targets across long, multi-camera video. Prior methods -- tracking pipelines, CLIP based models, and VideoRAG -- require heavy manual filtering, capture only shallow attributes, and fail at temporal reasoning. Real-world searches are inherently multimodal (e.g., "When does this person join the fight?" with the person's image), yet this setting remains underexplored. Also, there are no proper benchmarks to evaluate those setting - asking video with multimodal queries. To address this gap, we introduce ForeSeaQA, a new benchmark specifically designed for video QA with image-and-text queries and timestamped annotations of key events. The dataset consists of long-horizon surveillance footage paired with diverse multimodal questions, enabling systematic evaluation of retrieval, temporal grounding, and multimodal reasoning in realistic forensic conditions. Not limited to this benchmark, we propose ForeSea, an AI forensic search system with a 3-stage, plug-and-play pipeline. (1) A tracking module filters irrelevant footage; (2) a multimodal embedding module indexes the remaining clips; and (3) during inference, the system retrieves top-K candidate clips for a Video Large Language Model (VideoLLM) to answer queries and localize events. On ForeSeaQA, ForeSea improves accuracy by 3.5% and temporal IoU by 11.0 over prior VideoRAG models. To our knowledge, ForeSeaQA is the first benchmark to support complex multimodal queries with precise temporal grounding, and ForeSea is the first VideoRAG system built to excel in this setting.
- Abstract(参考訳): 何十年にもわたる努力にもかかわらず、監視は長いマルチカメラビデオで特定のターゲットを見つけるのに苦戦している。
以前のメソッド -- パイプラインのトラッキング、CLIPベースのモデル、VideoRAG -- は、重い手動フィルタリング、浅い属性のみをキャプチャし、時間的推論で失敗する必要があった。
現実世界の検索は本質的にマルチモーダルである(例えば、この人はいつ戦いに参加するのか?)が、この設定は未調査のままである。
また、これらの設定を評価するための適切なベンチマークはなく、マルチモーダルクエリでビデオに問い合わせる。
このギャップに対処するため、ForeSeaQAは、画像とテキストのクエリとキーイベントのタイムスタンプ付きアノテーションを備えたビデオQA用に特別に設計された新しいベンチマークである。
このデータセットは、多様なマルチモーダル質問と組み合わせた長距離監視映像で構成され、現実的な法医学的条件下での検索、時間的接地、多モーダル推論の体系的評価を可能にする。
このベンチマークに限らず、3段階のプラグアンドプレイパイプラインを備えたAI法医学検索システムであるForeSeaを提案する。
1)追跡モジュールは、無関係な映像をフィルタリングし、(2)マルチモーダル埋め込みモジュールは、残りのクリップをインデックスし、(3)推論中に、ビデオ大言語モデル(VideoLLM)用のトップK候補クリップを検索して、クエリに応答し、イベントをローカライズする。
ForeSeaQAでは、以前のVideoRAGモデルよりも精度が3.5%向上し、一時IoUが11.0向上した。
私たちの知る限り、ForeSeaQAは、正確な時間的根拠を持つ複雑なマルチモーダルクエリをサポートする最初のベンチマークです。
関連論文リスト
- MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。
AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。
提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-08T06:34:29Z) - Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding [60.88843818016968]
長時間のビデオ理解は時間空間の複雑さと質問応答の難しさによって大きな課題を呈する。
セグメント化されたビデオクリップ上でのエージェント検索戦略を活用するために,Deep Video Discovery (DVD) エージェントを提案する。
当社のDVDエージェントは,LVBenchデータセット上での最先端性能を実現し,74.2%の精度を実現した。
論文 参考訳(メタデータ) (2025-05-23T16:37:36Z) - Vidi: Large Multimodal Models for Video Understanding and Editing [38.391725386019324]
本稿では,LMM(Large Multimodal Models)のファミリであるVidiを紹介する。
最初のリリースでは、与えられたテキストクエリに対応する入力ビデオ内の時間範囲を特定する、時間的検索に焦点を当てている。
VUE-TRベンチマークも提案する。
論文 参考訳(メタデータ) (2025-04-22T08:04:45Z) - MomentSeeker: A Task-Oriented Benchmark For Long-Video Moment Retrieval [61.414236415351446]
長ビデオモーメント検索(LMVR)のための新しいベンチマークであるMomentSeekerを提案する。
MomentSeekerは、長く多様なビデオに基づいて作られ、平均1200秒以上持続する。
グローバルレベル、イベントレベル、オブジェクトレベル、アクション認識、オブジェクトローカライゼーション、因果推論といった一般的なタスクをカバーする。
論文 参考訳(メタデータ) (2025-02-18T05:50:23Z) - DeepQAMVS: Query-Aware Hierarchical Pointer Networks for Multi-Video
Summarization [127.16984421969529]
DeepQAMVSと呼ばれるマルチビデオ要約のための新しいQuery-Aware階層型ポインタネットワークを紹介します。
DeepQAMVSは強化学習で訓練され、代表性、多様性、クエリ適応性、時間的コヒーレンスを捉えた報酬を取り入れている。
MVS1Kデータセットで最新の結果を達成し、入力されたビデオフレームの数と線形に推論時間をスケーリングします。
論文 参考訳(メタデータ) (2021-05-13T17:33:26Z) - Frame-wise Cross-modal Matching for Video Moment Retrieval [32.68921139236391]
ビデオモーメント検索は、与えられた言語クエリのためにビデオ中の瞬間を検索するターゲットである。
本課題は,1)未編集ビデオにおける関連モーメントのローカライズの必要性,2)テキストクエリとビデオコンテンツ間のセマンティックなギャップを埋めることである。
本稿では,対話モデルに基づいて時間境界を予測できる注意的相互関連マッチングモデルを提案する。
論文 参考訳(メタデータ) (2020-09-22T10:25:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。