論文の概要: A Flow Base Bi-path Network for Cross-scene Video Crowd Understanding in
Aerial View
- arxiv url: http://arxiv.org/abs/2009.13723v1
- Date: Tue, 29 Sep 2020 01:48:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 06:27:42.857250
- Title: A Flow Base Bi-path Network for Cross-scene Video Crowd Understanding in
Aerial View
- Title(参考訳): 空中から見たクロスシーン映像群理解のためのフローベースバイパスネットワーク
- Authors: Zhiyuan Zhao, Tao Han, Junyu Gao, Qi Wang, Xuelong Li
- Abstract要約: 本稿では,これらの課題に対処し,ドローンから収集した視覚的データから参加者を自動的に理解する。
クロスシーンテストで発生する背景雑音を軽減するために, 二重ストリーム群カウントモデルを提案する。
極暗環境下での集団密度推定問題に対処するために,ゲームグランドセフトオートV(GTAV)によって生成された合成データを導入する。
- 参考スコア(独自算出の注目度): 93.23947591795897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Drones shooting can be applied in dynamic traffic monitoring, object
detecting and tracking, and other vision tasks. The variability of the shooting
location adds some intractable challenges to these missions, such as varying
scale, unstable exposure, and scene migration. In this paper, we strive to
tackle the above challenges and automatically understand the crowd from the
visual data collected from drones. First, to alleviate the background noise
generated in cross-scene testing, a double-stream crowd counting model is
proposed, which extracts optical flow and frame difference information as an
additional branch. Besides, to improve the model's generalization ability at
different scales and time, we randomly combine a variety of data transformation
methods to simulate some unseen environments. To tackle the crowd density
estimation problem under extreme dark environments, we introduce synthetic data
generated by game Grand Theft Auto V(GTAV). Experiment results show the
effectiveness of the virtual data. Our method wins the challenge with a mean
absolute error (MAE) of 12.70. Moreover, a comprehensive ablation study is
conducted to explore each component's contribution.
- Abstract(参考訳): ドローン射撃は、ダイナミックなトラフィック監視、オブジェクトの検出と追跡、その他のビジョンタスクに応用できる。
撮影場所の変動は、様々なスケール、不安定な露出、シーンマイグレーションなど、これらのミッションにいくつかの難題をもたらす。
本稿では、上記の課題に取り組み、ドローンから収集した視覚データから群衆を自動的に理解することに努める。
まず, クロスシーンテストで発生する背景雑音を緩和するために, 光流とフレーム差情報を付加枝として抽出する二重流群集計数モデルを提案する。
さらに,様々なスケールと時間におけるモデルの一般化能力を向上させるため,様々なデータ変換手法をランダムに組み合わせ,未知の環境をシミュレートする。
極暗環境下での群衆密度推定問題に対処するために,ゲームグランドセフトオートV(GTAV)によって生成された合成データを導入する。
実験結果は仮想データの有効性を示す。
平均絶対誤差(MAE)は12.70である。
さらに,各成分の寄与を調べるため,包括的アブレーション研究を行った。
関連論文リスト
- SGD: Street View Synthesis with Gaussian Splatting and Diffusion Prior [53.52396082006044]
現在の手法では、トレーニングの観点から大きく逸脱する観点で、レンダリングの品質を維持するのに苦労しています。
この問題は、移動中の車両の固定カメラが捉えた、まばらなトレーニングビューに起因している。
そこで本研究では,拡散モデルを用いて3DGSのキャパシティを向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T09:20:29Z) - Amirkabir campus dataset: Real-world challenges and scenarios of Visual
Inertial Odometry (VIO) for visually impaired people [3.7998592843098336]
上記の問題に対処し,ナビゲーションシステムを改善するために,Amirkabirキャンパスデータセット(AUT-VI)を導入する。
AUT-VIは17の異なる場所で126の異なる配列を持つ、新しくて超混成的なデータセットである。
進行中の開発作業のサポートとして、データキャプチャ用のAndroidアプリケーションを一般向けにリリースしました。
論文 参考訳(メタデータ) (2024-01-07T23:13:51Z) - SeaDSC: A video-based unsupervised method for dynamic scene change
detection in unmanned surface vehicles [3.2716252389196288]
本稿では,無人表面車両(USV)の動的シーン変化を検出するためのアプローチについて概説する。
本研究の目的は,海中映像データのダイナミックなシーン,特に高い類似性を示すシーンに顕著な変化を見出すことである。
本研究では,動的シーン変化検出システムにおいて,教師なし学習手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T07:34:01Z) - Towards Viewpoint Robustness in Bird's Eye View Segmentation [85.99907496019972]
AV知覚モデルがカメラ視点の変化にどのように影響するかを考察する。
投機時のピッチ、ヨー、深さ、高さへの小さな変化は、大きな性能低下につながる。
本稿では,新しいビュー合成技術を導入し,収集したデータをターゲットリグの視点に変換する手法を提案する。
論文 参考訳(メタデータ) (2023-09-11T02:10:07Z) - DeNoising-MOT: Towards Multiple Object Tracking with Severe Occlusions [52.63323657077447]
DNMOTは、複数のオブジェクト追跡のためのエンドツーエンドのトレーニング可能なDeNoising Transformerである。
具体的には、トレーニング中にノイズを伴って軌道を拡大し、エンコーダ・デコーダアーキテクチャのデノイング過程をモデルに学習させる。
我々はMOT17,MOT20,DanceTrackのデータセットについて広範な実験を行い,実験結果から,提案手法が従来の最先端手法よりも明確なマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-09-09T04:40:01Z) - ScatterNeRF: Seeing Through Fog with Physically-Based Inverse Neural
Rendering [83.75284107397003]
本稿では,シーンをレンダリングし,霧のない背景を分解するニューラルネットワークレンダリング手法であるScatterNeRFを紹介する。
本研究では,散乱量とシーンオブジェクトの非絡み合い表現を提案し,物理に着想を得た損失を伴ってシーン再構成を学習する。
マルチビューIn-the-Wildデータをキャプチャして,大規模な霧室内でのキャプチャを制御し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-05-03T13:24:06Z) - SGDViT: Saliency-Guided Dynamic Vision Transformer for UAV Tracking [12.447854608181833]
本研究は、UAV追跡のための新しいサリエンシ誘導動的視覚変換器(SGDViT)を提案する。
提案手法は,クロスコリレーション操作を洗練させるために,タスク固有の新たなオブジェクト・サリエンシ・マイニング・ネットワークを設計する。
軽量な塩分フィルタリング変換器は、さらに塩分情報を洗練し、外観情報に焦点を当てる。
論文 参考訳(メタデータ) (2023-03-08T05:01:00Z) - UAV-CROWD: Violent and non-violent crowd activity simulator from the
perspective of UAV [0.0]
空から見ると、暴力的で非暴力的な人間の活動を捉えているビデオデータセットは少ない。
本稿では,暴力的・非暴力的と分類できる,様々な活動に従事する群衆の合成画像を生成することのできる,新しいベースラインシミュレータを提案する。
我々のシミュレーターは大規模でランダムな都市環境を生成でき、中距離コンピュータ上では平均25フレーム/秒を維持できる。
論文 参考訳(メタデータ) (2022-08-13T18:28:37Z) - Vision-Language Navigation with Random Environmental Mixup [112.94609558723518]
視覚言語ナビゲーション(VLN)タスクは、視覚的な観察を認識し、自然言語の命令を解釈しながら、エージェントがステップバイステップでナビゲートする必要がある。
従来の研究では、データのバイアスを減らすために様々なデータ拡張手法が提案されている。
本研究では,混成環境を介し,相互接続された住宅シーンを付加データとして生成するランダム環境混成(REM)手法を提案する。
論文 参考訳(メタデータ) (2021-06-15T04:34:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。