論文の概要: MEVA: A Large-Scale Multiview, Multimodal Video Dataset for Activity
Detection
- arxiv url: http://arxiv.org/abs/2012.00914v1
- Date: Wed, 2 Dec 2020 01:02:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 04:03:13.153924
- Title: MEVA: A Large-Scale Multiview, Multimodal Video Dataset for Activity
Detection
- Title(参考訳): MEVA: アクティビティ検出のための大規模マルチビューマルチモーダルビデオデータセット
- Authors: Kellie Corona (1), Katie Osterdahl (1), Roderic Collins (1), Anthony
Hoogs (1) ((1) Kitware, Inc.)
- Abstract要約: データセットは、さまざまな同時アクティビティを含むようにスクリプト化された、トリミングされていない連続的なビデオの9300時間以上である。
私たちは、アクターとプロップのバウンディングボックスをマークして、37のアクティビティタイプに144時間アノテーションを付けました。
得られたデータには、38RGBの赤外線カメラ、42時間のUAV映像、アクターのGPS位置などが含まれる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the Multiview Extended Video with Activities (MEVA) dataset, a new
and very-large-scale dataset for human activity recognition. Existing security
datasets either focus on activity counts by aggregating public video
disseminated due to its content, which typically excludes same-scene background
video, or they achieve persistence by observing public areas and thus cannot
control for activity content. Our dataset is over 9300 hours of untrimmed,
continuous video, scripted to include diverse, simultaneous activities, along
with spontaneous background activity. We have annotated 144 hours for 37
activity types, marking bounding boxes of actors and props. Our collection
observed approximately 100 actors performing scripted scenarios and spontaneous
background activity over a three-week period at an access-controlled venue,
collecting in multiple modalities with overlapping and non-overlapping indoor
and outdoor viewpoints. The resulting data includes video from 38 RGB and
thermal IR cameras, 42 hours of UAV footage, as well as GPS locations for the
actors. 122 hours of annotation are sequestered in support of the NIST Activity
in Extended Video (ActEV) challenge; the other 22 hours of annotation and the
corresponding video are available on our website, along with an additional 306
hours of ground camera data, 4.6 hours of UAV data, and 9.6 hours of GPS logs.
Additional derived data includes camera models geo-registering the outdoor
cameras and a dense 3D point cloud model of the outdoor scene. The data was
collected with IRB oversight and approval and released under a CC-BY-4.0
license.
- Abstract(参考訳): 本研究では,人間行動認識のための新しい大規模データセットであるmultiview extended video with activity (meva) datasetを提案する。
既存のセキュリティデータセットは、コンテンツによって拡散された公開ビデオの集約によるアクティビティ数にフォーカスするか、一般的に同じシーンのバックグラウンドビデオを除外するか、パブリックエリアを観察して永続性を達成し、アクティビティコンテンツに対して制御できないかのどちらかである。
当社のデータセットは9300時間以上の非トリミング連続ビデオで、多様な同時アクティビティと自発的なバックグラウンドアクティビティを含むスクリプト化されています。
私たちは37のアクティビティタイプに対して144時間アノテーションを付け、アクターとプロップのバウンディングボックスをマークしました。
本コレクションでは,3週間のアクセスコントロール会場におけるスクリプトシナリオと自発的バックグラウンドアクティビティを約100人のアクターが実施し,重なり合い,非重なり合う屋内・屋外の視点で複数のモダリティを収集した。
得られたデータには、38RGBの赤外線カメラ、42時間のUAV映像、アクターのGPS位置などが含まれる。
122時間のアノテーションは、NIST Activity in Extended Video (ActEV)チャレンジをサポートするために隔離され、残りの22時間のアノテーションと対応するビデオは、さらに306時間の地上カメラデータ、4.6時間のUAVデータ、9.6時間のGPSログとともに、私たちのウェブサイトで利用可能である。
追加の派生データには、屋外カメラをジオ登録するカメラモデルと、屋外シーンの密集した3dポイントクラウドモデルが含まれる。
データはirb監視と承認で収集され、cc-by-4.0ライセンスでリリースされた。
関連論文リスト
- HourVideo: 1-Hour Video-Language Understanding [34.90495038962066]
HourVideoは、時間単位のビデオ言語理解のためのベンチマークデータセットである。
HourVideoには、20分から120分の間、手動で編集されたエゴセントリックなビデオが500本含まれている。
ベンチマークの結果、GPT-4やLLaVA-NeXTを含むマルチモーダルモデルでは、ランダムな確率よりも限界的な改善が得られた。
論文 参考訳(メタデータ) (2024-11-07T18:59:16Z) - Nymeria: A Massive Collection of Multimodal Egocentric Daily Motion in the Wild [66.34146236875822]
ニメリアデータセット(Nymeria dataset)は、複数のマルチモーダル・エゴセントリックなデバイスで野生で収集された、大規模で多様な、多彩な注釈付けされた人間のモーションデータセットである。
合計で399Kmを走行し、50か所にわたる264人の参加者から毎日300時間の録音を1200件記録している。
動作言語記述は、語彙サイズ6545の8.64万語で310.5K文を提供する。
論文 参考訳(メタデータ) (2024-06-14T10:23:53Z) - Ego-Exo4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives [194.06650316685798]
Ego-Exo4Dは、熟練した人間の活動を同時に捉えたエゴセントリックでエゴセントリックなビデオを中心にしている。
世界の13都市から740人の参加者が123の異なる自然環境下でこれらの活動を行った。
ビデオにはマルチチャンネルオーディオ、視線、3Dポイントクラウド、カメラポーズ、IMU、複数対の言語記述が添付されている。
論文 参考訳(メタデータ) (2023-11-30T05:21:07Z) - A Multi-Person Video Dataset Annotation Method of Spatio-Temporally
Actions [4.49302950538123]
ビデオのクロップやフレームビデオ、そしてビデオフレーム内の人間の検出にYolov5を使い、ビデオフレーム内の人間のIDをディープソートして検出します。
論文 参考訳(メタデータ) (2022-04-21T15:14:02Z) - Ego4D: Around the World in 3,000 Hours of Egocentric Video [276.1326075259486]
Ego4Dは大規模なビデオデータセットとベンチマークスイートである。
世界中の74か国と9か国から、855人のユニークなカメラ着用者が捉えた数百のシナリオを、毎日3,025時間の動画で見ることができる。
ビデオにはオーディオ、環境の3Dメッシュ、視線、ステレオ、および/または複数のエゴセントリックカメラからの同期ビデオが添付されている。
論文 参考訳(メタデータ) (2021-10-13T22:19:32Z) - TIMo -- A Dataset for Indoor Building Monitoring with a Time-of-Flight
Camera [9.746370805708095]
タイム・オブ・フライ(ToF)カメラを用いた室内空間の映像監視用データセットTIMoについて述べる。
その結果生まれたディープビデオは、さまざまな事前定義されたアクションを実行する人々を特徴付けている。
対象とする2つのアプリケーションには、計数と異常検出を行う人物検出がある。
論文 参考訳(メタデータ) (2021-08-27T09:33:11Z) - ARID: A New Dataset for Recognizing Action in the Dark [19.010874017607247]
本稿では,ダークビデオにおける行動認識の課題について考察する。
3,780本以上のビデオクリップと11のアクションカテゴリで構成されている。
私たちの知る限りでは、ダークビデオにおける人間の行動に焦点を当てた最初のデータセットです。
論文 参考訳(メタデータ) (2020-06-06T14:25:52Z) - 4D Visualization of Dynamic Events from Unconstrained Multi-View Videos [77.48430951972928]
ハンドヘルド複数カメラで撮影したビデオから4次元の時空間で動的事象を可視化するためのデータ駆動型アプローチを提案する。
このアプローチの鍵となるのは、イベントの静的および動的側面を構成するために、シーン固有の自己教師型ニューラルネットワークを使用することです。
このモデルでは,(1)時刻の凍結と視界探索,(2)視点の凍結と時間移動,(3)時間と視界の同時変更を行う仮想カメラを作成することができる。
論文 参考訳(メタデータ) (2020-05-27T17:57:19Z) - Gabriella: An Online System for Real-Time Activity Detection in
Untrimmed Security Videos [72.50607929306058]
本研究では,未トリミングされたセキュリティビデオ上でのアクティビティ検出をリアルタイムに行うオンラインシステムを提案する。
提案手法は, チューブレット抽出, 活性分類, オンラインチューブレットマージの3段階からなる。
提案手法の有効性を,100fps(100fps)と最新技術による性能評価で実証した。
論文 参考訳(メタデータ) (2020-04-23T22:20:10Z) - ZSTAD: Zero-Shot Temporal Activity Detection [107.63759089583382]
本研究では,ゼロショット時間的活動検出(ZSTAD)と呼ばれる新たなタスク設定を提案する。
このソリューションのアーキテクチャとして,R-C3Dに基づくエンドツーエンドのディープネットワークを設計する。
THUMOS14とCharadesデータセットの両方の実験は、目に見えない活動を検出するという点で有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-03-12T02:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。