論文の概要: Ambient Sound Helps: Audiovisual Crowd Counting in Extreme Conditions
- arxiv url: http://arxiv.org/abs/2005.07097v2
- Date: Sat, 16 May 2020 20:56:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 05:14:39.317580
- Title: Ambient Sound Helps: Audiovisual Crowd Counting in Extreme Conditions
- Title(参考訳): 環境音:超音環境下での観客数
- Authors: Di Hu, Lichao Mou, Qingzhong Wang, Junyu Gao, Yuansheng Hua, Dejing
Dou, Xiao Xiang Zhu
- Abstract要約: 本稿では,視覚情報と聴覚情報を統合してカウントする,視覚的群集カウントという新しいタスクを紹介する。
大規模なベンチマークであるauDiovISual Crowd cOuntingデータセットを収集します。
我々は,視覚的特徴と聴覚的特徴のアフィン変換を行う線形特徴量融合モジュールを利用する。
- 参考スコア(独自算出の注目度): 64.43064637421007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual crowd counting has been recently studied as a way to enable people
counting in crowd scenes from images. Albeit successful, vision-based crowd
counting approaches could fail to capture informative features in extreme
conditions, e.g., imaging at night and occlusion. In this work, we introduce a
novel task of audiovisual crowd counting, in which visual and auditory
information are integrated for counting purposes. We collect a large-scale
benchmark, named auDiovISual Crowd cOunting (DISCO) dataset, consisting of
1,935 images and the corresponding audio clips, and 170,270 annotated
instances. In order to fuse the two modalities, we make use of a linear
feature-wise fusion module that carries out an affine transformation on visual
and auditory features. Finally, we conduct extensive experiments using the
proposed dataset and approach. Experimental results show that introducing
auditory information can benefit crowd counting under different illumination,
noise, and occlusion conditions. The dataset and code will be released. Code
and data have been made available
- Abstract(参考訳): 視覚的な群衆カウントは、画像から群衆のシーンをカウントできる方法として近年研究されている。
常に成功し、視覚に基づく群集カウントアプローチは、極端な状況、例えば夜間の撮像や閉塞といった情報的特徴を捉えられなかった。
本研究では,視覚情報と聴覚情報を統合してカウントする,視覚的群集カウントという新しいタスクを提案する。
auDiovISual Crowd cOunting (DISCO) データセットは1,935イメージと対応するオーディオクリップと170,270のアノテーション付きインスタンスで構成されている。
この2つのモダリティを融合するために,視覚および聴覚の特徴に対してアフィン変換を行う線形特徴回り融合モジュールを用いる。
最後に,提案するデータセットとアプローチを用いて広範な実験を行う。
実験結果から, 聴覚情報の導入は, 照明, 騒音, 閉塞条件の異なる群集数に有効であることが示唆された。
データセットとコードがリリースされる。
コードとデータが利用可能になった
関連論文リスト
- Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。
この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。
OV-AVEBenchデータセットを提案する。
論文 参考訳(メタデータ) (2024-11-18T04:35:20Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Egocentric Audio-Visual Noise Suppression [11.113020254726292]
本稿では,エゴセントリックビデオの音声・視覚ノイズ抑圧について検討する。
ビデオカメラは、外界のオフスクリーンスピーカーのビューをエミュレートします。
まず,エゴセントリックな視覚情報が騒音抑制に有効であることを示す。
論文 参考訳(メタデータ) (2022-11-07T15:53:12Z) - Estimating Visual Information From Audio Through Manifold Learning [14.113590443352495]
音声信号のみを用いてシーンの視覚情報を抽出する新しい枠組みを提案する。
私たちのフレームワークはマニフォールド学習に基づいており、2つのステップから構成されています。
提案手法は,公開されている音声/視覚データセットを用いて,音声から有意義な画像を生成することができることを示す。
論文 参考訳(メタデータ) (2022-08-03T20:47:11Z) - AV-Gaze: A Study on the Effectiveness of Audio Guided Visual Attention
Estimation for Non-Profilic Faces [28.245662058349854]
本稿では,音声誘導型粗いヘッドポジションが,非プロデューフィック顔に対する視覚的注意度推定性能をさらに向上させるかどうかを考察する。
オフ・ザ・シェルフ・オブ・ザ・アーティファクト・モデルを用いて、クロスモーダルな弱いスーパービジョンを促進する。
我々のモデルは、タスク固有の推論に利用可能な任意のモダリティを利用することができる。
論文 参考訳(メタデータ) (2022-07-07T02:23:02Z) - Weakly-Supervised Action Detection Guided by Audio Narration [50.4318060593995]
ナレーション管理から学習し,RGB,モーションフロー,環境音などのマルチモーダル特徴を利用するモデルを提案する。
実験の結果,ノイズの多い音声ナレーションは優れた行動検出モデルを学ぶのに十分であることがわかった。
論文 参考訳(メタデータ) (2022-05-12T06:33:24Z) - AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。
本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文 参考訳(メタデータ) (2021-05-17T08:36:10Z) - Repetitive Activity Counting by Sight and Sound [110.36526333035907]
本論文では,ビデオの繰り返し動作をカウントする。
映像コンテンツのみを解析する既存の作品と異なり、再生カウントプロセスに初めて対応する音を組み込んでいます。
論文 参考訳(メタデータ) (2021-03-24T11:15:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。