論文の概要: Contextual Sense Making by Fusing Scene Classification, Detections, and
Events in Full Motion Video
- arxiv url: http://arxiv.org/abs/2001.05979v1
- Date: Thu, 16 Jan 2020 18:26:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 00:21:00.236390
- Title: Contextual Sense Making by Fusing Scene Classification, Detections, and
Events in Full Motion Video
- Title(参考訳): フルモーションビデオにおけるシーン分類・検出・イベントの融合によるコンテキストセンス作成
- Authors: Marc Bosch, Joseph Nassar, Benjamin Ortiz, Brendan Lammers, David
Lindenbaum, John Wahl, Robert Mangum, and Margaret Smith
- Abstract要約: 本研究では,航空FMVのデータの利用と活用に関する人間アナリストのニーズに対処することを目的とする。
問題を,(1)コンテキスト認識,(2)オブジェクトカタログ化,(3)イベント検出の3つのタスクに分割した。
地理的領域の異なる解像度の異なるセンサのデータに対して,本手法を適用した。
- 参考スコア(独自算出の注目度): 0.7348448478819135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the proliferation of imaging sensors, the volume of multi-modal imagery
far exceeds the ability of human analysts to adequately consume and exploit it.
Full motion video (FMV) possesses the extra challenge of containing large
amounts of redundant temporal data. We aim to address the needs of human
analysts to consume and exploit data given aerial FMV. We have investigated and
designed a system capable of detecting events and activities of interest that
deviate from the baseline patterns of observation given FMV feeds. We have
divided the problem into three tasks: (1) Context awareness, (2) object
cataloging, and (3) event detection. The goal of context awareness is to
constraint the problem of visual search and detection in video data. A custom
image classifier categorizes the scene with one or multiple labels to identify
the operating context and environment. This step helps reducing the semantic
search space of downstream tasks in order to increase their accuracy. The
second step is object cataloging, where an ensemble of object detectors locates
and labels any known objects found in the scene (people, vehicles, boats,
planes, buildings, etc.). Finally, context information and detections are sent
to the event detection engine to monitor for certain behaviors. A series of
analytics monitor the scene by tracking object counts, and object interactions.
If these object interactions are not declared to be commonly observed in the
current scene, the system will report, geolocate, and log the event. Events of
interest include identifying a gathering of people as a meeting and/or a crowd,
alerting when there are boats on a beach unloading cargo, increased count of
people entering a building, people getting in and/or out of vehicles of
interest, etc. We have applied our methods on data from different sensors at
different resolutions in a variety of geographical areas.
- Abstract(参考訳): 画像センサの普及に伴い、マルチモーダル画像の容積は、人間の分析者が適切に利用し活用する能力を大きく上回っている。
フルモーションビデオ(FMV)は、大量の冗長な時間データを格納する余分な課題を持つ。
本研究では,航空FMVのデータの利用と活用に関する人間アナリストのニーズに対処することを目的とする。
我々は,fmvフィードの観測基準パターンから逸脱する事象や興味のある活動を検出するシステムの検討と設計を行った。
問題を,(1)コンテキスト認識,(2)オブジェクトカタログ化,(3)イベント検出の3つのタスクに分割した。
コンテキスト認識の目標は,映像データの視覚的検索と検出の問題を制約することにある。
カスタムイメージ分類器は、シーンを1つまたは複数のラベルで分類し、動作コンテキストと環境を識別する。
このステップは、ダウンストリームタスクのセマンティック検索スペースを減らし、精度を高めるのに役立つ。
第2のステップはオブジェクトカタログであり、オブジェクト検出器のアンサンブルが、現場で見つかった既知のオブジェクト(人、車、ボート、飛行機、建物など)を特定し、ラベル付けする。
最後に、コンテキスト情報と検出がイベント検出エンジンに送られ、特定の動作を監視する。
一連の分析は、オブジェクト数とオブジェクトインタラクションを追跡することで、シーンを監視します。
これらのオブジェクトのインタラクションが現在のシーンで一般的に観測されないと宣言された場合、システムはイベントを報告し、ジオロケーションし、ログする。
関心事には、会議や群衆としての人々の集まりの特定、海浜に船が積荷を降ろすときの警告、建物に入る人の数の増加、関心のある車から出入りする人などが含まれる。
地理的領域の異なる解像度の異なるセンサのデータに対して,本手法を適用した。
関連論文リスト
- Analysis of Unstructured High-Density Crowded Scenes for Crowd Monitoring [55.2480439325792]
我々は,人群集の組織的動きを検出する自動システムの開発に興味がある。
コンピュータビジョンアルゴリズムは、混雑したシーンのビデオから情報を抽出することができる。
組織化されたコホート内の参加者数を見積もることができます。
論文 参考訳(メタデータ) (2024-08-06T22:09:50Z) - Visual Context-Aware Person Fall Detection [52.49277799455569]
画像中の個人とオブジェクトを半自動分離するセグメンテーションパイプラインを提案する。
ベッド、椅子、車椅子などの背景オブジェクトは、転倒検知システムに挑戦し、誤ったポジティブアラームを引き起こす。
トレーニング中のオブジェクト固有のコンテキスト変換が、この課題を効果的に軽減することを示す。
論文 参考訳(メタデータ) (2024-04-11T19:06:36Z) - Detecting Events in Crowds Through Changes in Geometrical Dimensions of
Pedestrians [0.6390468088226495]
イベントが群衆の行動の変化を引き起こす場合と、群衆とその動きがほとんど変化しない2つのビデオシーケンスの両方を含む、群衆行動の3つの異なるシナリオについて検討する。
ビデオと個々の歩行者の追跡(前処理段階)の両方で、Geomindを使用してシーン、特に幾何学的特徴、個性、感情に関する重要なデータを抽出する。
次に、各人物がイベントを識別したり、現実的な群衆をモデル化するための基盤として使用できる、時間の関数としての働き方に大きな変化を求める。
論文 参考訳(メタデータ) (2023-12-11T16:18:56Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - FGAHOI: Fine-Grained Anchors for Human-Object Interaction Detection [4.534713782093219]
上記の問題を緩和するために、新しいエンドツーエンドトランスフォーマーベースフレームワーク(FGAHOI)を提案する。
FGAHOIは、マルチスケールサンプリング(MSS)、階層空間認識マージ(HSAM)、タスク認識マージ機構(TAM)の3つの専用コンポーネントから構成される。
論文 参考訳(メタデータ) (2023-01-08T03:53:50Z) - MECCANO: A Multimodal Egocentric Dataset for Humans Behavior
Understanding in the Industrial-like Domain [23.598727613908853]
本稿では,産業的な環境下での人間の行動理解を目的とした,エゴセントリックなビデオのデータセットMECCANOを提案する。
マルチモダリティの特徴は、視線信号、深度マップ、RGBビデオとカスタムヘッドセットが同時に取得される点である。
データセットは、人間の行動理解の文脈における基本的なタスクに対して、一人称視点から明示的にラベル付けされている。
論文 参考訳(メタデータ) (2022-09-19T00:52:42Z) - A Dynamic Data Driven Approach for Explainable Scene Understanding [0.0]
シーン理解はコンピュータビジョンの領域において重要なトピックである。
我々は、シーンの活発な説明駆動的理解と分類について考察する。
我々のフレームワークはACUMEN: Active Classification and Understanding Method by Explanation-driven Networksである。
論文 参考訳(メタデータ) (2022-06-18T02:41:51Z) - Video Action Detection: Analysing Limitations and Challenges [70.01260415234127]
ビデオ行動検出における既存のデータセットを分析し,その限界について議論する。
静的画像から映像を区別する重要な特性である時間的側面を解析するバイアスネススタディを実行する。
このような極端な実験は、注意深いモデリングを必要とする既存の手法に忍び込んだバイアスの存在を示している。
論文 参考訳(メタデータ) (2022-04-17T00:42:14Z) - Finding a Needle in a Haystack: Tiny Flying Object Detection in 4K
Videos using a Joint Detection-and-Tracking Approach [19.59528430884104]
本稿では,検出と追跡を共同で行うrecurrent correlational networkと呼ばれるニューラルネットワークモデルを提案する。
鳥や無人航空機などの小さな飛行物体の画像を含むデータセットを用いた実験では、提案手法は一貫した改善をもたらした。
我々のネットワークは、鳥の画像データセットのトラッカーとして評価されたとき、最先端の汎用オブジェクトトラッカと同様に機能します。
論文 参考訳(メタデータ) (2021-05-18T03:22:03Z) - Toward Accurate Person-level Action Recognition in Videos of Crowded
Scenes [131.9067467127761]
我々は、シーンの情報を完全に活用し、新しいデータを集めることで、アクション認識を改善することに集中する。
具体的には、各フレームの空間的位置を検出するために、強い人間の検出器を採用する。
そして、行動認識モデルを適用して、HIEデータセットとインターネットから多様なシーンを持つ新しいデータの両方でビデオフレームから時間情報を学ぶ。
論文 参考訳(メタデータ) (2020-10-16T13:08:50Z) - TAO: A Large-Scale Benchmark for Tracking Any Object [95.87310116010185]
オブジェクトのデータセットの追跡は2,907本の高解像度ビデオで構成され、平均で30分の長さの多様な環境でキャプチャされる。
ビデオの任意の時点で移動するオブジェクトにアノテータにラベルを付け、ファクトラムの後に名前を付けるように求めます。
我々の語彙は、既存の追跡データセットと著しく大きく、質的に異なる。
論文 参考訳(メタデータ) (2020-05-20T21:07:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。