論文の概要: VideoScoop: A Non-Traditional Domain-Independent Framework For Video Analysis
- arxiv url: http://arxiv.org/abs/2512.01769v1
- Date: Mon, 01 Dec 2025 15:09:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.913377
- Title: VideoScoop: A Non-Traditional Domain-Independent Framework For Video Analysis
- Title(参考訳): VideoScoop: ビデオ分析のための非トラディショナルなドメインに依存しないフレームワーク
- Authors: Hafsa Billah,
- Abstract要約: ビデオコンシデント分析(VSA)は、エラーが発生し、労働集約的なループ内で人間が手動で行う。
本報告では,上記の制限を克服する汎用VSAフレームワークを提案する。
最新の映像コンテンツ抽出技術を用いて、映像コンテンツを一度抽出する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automatically understanding video contents is important for several applications in Civic Monitoring (CM), general Surveillance (SL), Assisted Living (AL), etc. Decades of Image and Video Analysis (IVA) research have advanced tasks such as content extraction (e.g., object recognition and tracking). Identifying meaningful activities or situations (e.g., two objects coming closer) remains difficult and cannot be achieved by content extraction alone. Currently, Video Situation Analysis (VSA) is done manually with a human in the loop, which is error-prone and labor-intensive, or through custom algorithms designed for specific video types or situations. These algorithms are not general-purpose and require a new algorithm/software for each new situation or video from a new domain. This report proposes a general-purpose VSA framework that overcomes the above limitations. Video contents are extracted once using state-of-the-art Video Content Extraction technologies. They are represented using two alternative models -- the extended relational model (R++) and graph models. When represented using R++, the extracted contents can be used as data streams, enabling Continuous Query Processing via the proposed Continuous Query Language for Video Analysis. The graph models complement this by enabling the detection of situations that are difficult or impossible to detect using the relational model alone. Existing graph algorithms and newly developed algorithms support a wide variety of situation detection. To support domain independence, primitive situation variants across domains are identified and expressed as parameterized templates. Extensive experiments were conducted across several interesting situations from three domains -- AL, CM, and SL-- to evaluate the accuracy, efficiency, and robustness of the proposed approach using a dataset of videos of varying lengths from these domains.
- Abstract(参考訳): 映像コンテンツの自動理解は,Civic Monitoring (CM), General Surveillance (SL), Assisted Living (AL) などのいくつかのアプリケーションにおいて重要である。
画像・映像分析(IVA)の研究は、コンテンツ抽出(オブジェクト認識や追跡など)などの高度なタスクをこなしている。
意味のある活動や状況(例えば、2つのオブジェクトが近くに来る)を特定することは依然として困難であり、コンテンツ抽出だけでは達成できない。
現在、ビデオ状況分析(VSA)は、エラーが発生し、労働集約的なループ内の人間と手動で行われ、特定のビデオタイプや状況のために設計されたカスタムアルゴリズムによって行われる。
これらのアルゴリズムは汎用的ではなく、新しい状況や新しいドメインのビデオごとに新しいアルゴリズム/ソフトウェアを必要とする。
本報告では,上記の制限を克服する汎用VSAフレームワークを提案する。
最新の映像コンテンツ抽出技術を用いて、映像コンテンツを一度抽出する。
拡張リレーショナルモデル(R++)とグラフモデル(グラフモデル)の2つの代替モデルを用いて表現されている。R++を用いて表現される場合、抽出された内容はデータストリームとして利用でき、提案された連続クエリ言語による連続クエリ処理を可能にする。グラフモデルは、リレーショナルモデルだけでは検出が困難または不可能な状況の検出を可能にする。既存のグラフアルゴリズムと新しく開発されたアルゴリズムは、さまざまな状況検出をサポートする。ドメイン独立性をサポートするために、ドメイン間の原始的な状況変動をパラメータ化テンプレートとして識別し、表現する。大規模な実験は、3つのドメインから興味深い状況(AL、CM、SL-)で行われ、提案されたアプローチの正確性、効率、堅牢性を評価した。
関連論文リスト
- VUDG: A Dataset for Video Understanding Domain Generalization [29.27464392754555]
Video Understanding Domain Generalization (VUDG) は、ビデオ理解におけるDGのパフォーマンスを評価するために特別に設計された注釈付きデータセットである。
VUDGには、3つのタイプのドメインシフトをカバーする11の異なるドメインのビデオが含まれており、公正で意味のある評価を保証するために、異なるドメイン間のセマンティックな類似性を維持している。
論文 参考訳(メタデータ) (2025-05-30T08:39:36Z) - Real-Time Anomaly Detection in Video Streams [0.0]
この論文は、Othello社とIASD研究所との間のCIFRE協定の一部である。
目的は、ビデオストリーム内のリアルタイムな危険を検出する人工知能システムを開発することである。
論文 参考訳(メタデータ) (2024-11-29T14:24:33Z) - Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - Generative Video Diffusion for Unseen Novel Semantic Video Moment Retrieval [54.22321767540878]
ビデオモーメント検索(VMR)は、未トリミングビデオのテキストクエリに対応する最も可能性の高いビデオモーメントを見つけることを目的としている。
既存のメソッドのトレーニングは、多様で汎用的なVMRデータセットの欠如によって制限される。
生成的ビデオ拡散を探索するFVEと呼ばれる細粒度ビデオ編集フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-24T09:45:40Z) - Spacewalk-18: A Benchmark for Multimodal and Long-form Procedural Video Understanding in Novel Domains [4.9347081318119015]
本研究では,(1)ステップ認識と(2)ビデオ質問応答の2つのタスクを含むベンチマークであるSpacewalk-18を紹介する。
タンデムにおいて、この2つのタスクは、(1)新しいドメインに一般化すること、(2)長期の時間的文脈とマルチモーダル(視覚的・音声的)情報を活用すること、の2つのモデルの能力の定量化である。
我々は,モデル微調整を伴わずに大幅な性能向上をもたらすような要約手法により,有望な適応を見いだす。
論文 参考訳(メタデータ) (2023-11-30T18:19:23Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。