論文の概要: ConvNets for Counting: Object Detection of Transient Phenomena in
Steelpan Drums
- arxiv url: http://arxiv.org/abs/2102.00632v1
- Date: Mon, 1 Feb 2021 04:41:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-02 17:46:33.847202
- Title: ConvNets for Counting: Object Detection of Transient Phenomena in
Steelpan Drums
- Title(参考訳): ConvNets for Counting: Object Detection of Transient Phenomena in Steelpan Drums
- Authors: Scott H. Hawley and Andrew C. Morrison
- Abstract要約: 本研究では,カリブ海のスチールパンドラムの過渡振動の高速ビデオ記録において,畳み込みニューラルネットワークを用いた物体検出装置を訓練する。
このシステムは、Zooniverse Steelpan Vibrations Projectから得られたクラウドソーシングされた人間の注釈画像のデータセットに基づいて訓練される。
このモデルを用いて、数千の未ラベルビデオフレームのアノテーションを予測することで、特徴を追跡し、同じドラムストライクの音声記録と整合した振動を測定することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We train an object detector built from convolutional neural networks to count
interference fringes in elliptical antinode regions visible in frames of
high-speed video recordings of transient oscillations in Caribbean steelpan
drums illuminated by electronic speckle pattern interferometry (ESPI). The
annotations provided by our model, "SPNet" are intended to contribute to the
understanding of time-dependent behavior in such drums by tracking the
development of sympathetic vibration modes. The system is trained on a dataset
of crowdsourced human-annotated images obtained from the Zooniverse Steelpan
Vibrations Project. Due to the relatively small number of human-annotated
images, we also train on a large corpus of synthetic images whose visual
properties have been matched to those of the real images by using a Generative
Adversarial Network to perform style transfer. Applying the model to predict
annotations of thousands of unlabeled video frames, we can track features and
measure oscillations consistent with audio recordings of the same drum strikes.
One surprising result is that the machine-annotated video frames reveal
transitions between the first and second harmonics of drum notes that
significantly precede such transitions present in the audio recordings. As this
paper primarily concerns the development of the model, deeper physical insights
await its further application.
- Abstract(参考訳): 電子スペックルパターン干渉計(ESPI)で照らされたカリブ海のスチールパンドラムの過渡振動の高速ビデオ記録のフレームに見る楕円反ノード領域の干渉縞を数えるために、畳み込みニューラルネットワークで構築された物体検出器を訓練する。
本モデルで提案するアノテーション「SPNet」は,交感神経振動モードの発達を追跡することで,ドラムの時間依存行動の理解に寄与することを目的としている。
このシステムは、Zooniverse Steelpan vibrations Projectから得られたクラウドソーシングされた人間の注釈付き画像のデータセットで訓練される。
また,人間のアノテート画像が比較的少ないため,視覚特性が実際の画像と一致した合成画像のコーパスを生成的逆ネットワークを用いて学習し,スタイル転送を行う。
何千ものラベルのないビデオフレームの注釈を予測するためにモデルを適用することで、同じドラムストライクのオーディオ記録と一致する特徴を追跡し、振動を測定することができる。
1つの驚くべき結果として、機械注釈付きビデオフレームは、オーディオ録音におけるそのような遷移に大きく先行する第1と第2の高調波の遷移を明らかにする。
本稿では,主にモデルの開発について述べるので,さらなる応用が期待できる。
関連論文リスト
- Generative Image Dynamics [80.70729090482575]
本研究では,シーン動作に先立って画像空間をモデル化する手法を提案する。
我々の先行研究は、実映像から抽出した動き軌跡の収集から得られたものである。
論文 参考訳(メタデータ) (2023-09-14T17:54:01Z) - Audio-Visual Contrastive Learning with Temporal Self-Supervision [84.11385346896412]
人間の監督なしにRGBフレームと付随するオーディオの両方の表現を学習するビデオのための自己教師付き学習手法を提案する。
ビデオに固有の時間的・聴覚的次元を活用するために,本手法は時間的自己監督を音声視覚設定に拡張する。
論文 参考訳(メタデータ) (2023-02-15T15:00:55Z) - Motion and Context-Aware Audio-Visual Conditioned Video Prediction [58.9467115916639]
視覚条件付き映像予測を動作モデルと外観モデルに分離する。
マルチモーダルモーション推定は、音声と動きの相関に基づいて将来の光の流れを予測する。
本研究では,グローバルな出現状況の減少に対処する文脈認識の改良を提案する。
論文 参考訳(メタデータ) (2022-12-09T05:57:46Z) - Weakly-Supervised Action Detection Guided by Audio Narration [50.4318060593995]
ナレーション管理から学習し,RGB,モーションフロー,環境音などのマルチモーダル特徴を利用するモデルを提案する。
実験の結果,ノイズの多い音声ナレーションは優れた行動検出モデルを学ぶのに十分であることがわかった。
論文 参考訳(メタデータ) (2022-05-12T06:33:24Z) - PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。
PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。
モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文 参考訳(メタデータ) (2021-12-01T19:49:57Z) - FoleyGAN: Visually Guided Generative Adversarial Network-Based
Synchronous Sound Generation in Silent Videos [0.0]
本稿では,ビデオ入力の時間的視覚情報を用いて,クラス条件付き生成対向ネットワークを案内する新しいタスクを提案する。
提案したFoleyGANモデルは、視覚的に整列したリアルなサウンドトラックを生成するために、視覚イベントのアクションシーケンスを条件付けることができる。
論文 参考訳(メタデータ) (2021-07-20T04:59:26Z) - Repetitive Activity Counting by Sight and Sound [110.36526333035907]
本論文では,ビデオの繰り返し動作をカウントする。
映像コンテンツのみを解析する既存の作品と異なり、再生カウントプロセスに初めて対応する音を組み込んでいます。
論文 参考訳(メタデータ) (2021-03-24T11:15:33Z) - HpRNet : Incorporating Residual Noise Modeling for Violin in a
Variational Parametric Synthesizer [11.4219428942199]
そこで我々は,高音域の演奏スタイルにおいて,弓音が不可欠な部分であるカルナティック・ヴァイオリン記録のデータセットを提案する。
信号の高調波成分と残差成分、およびそれらの相互依存性についての知見を得る。
論文 参考訳(メタデータ) (2020-08-19T12:48:32Z) - Exploring Spatial-Temporal Multi-Frequency Analysis for High-Fidelity
and Temporal-Consistency Video Prediction [12.84409065286371]
本稿では,マルチレベルウェーブレット解析に基づく映像予測ネットワークを提案し,空間的・時間的情報を統一的に扱う。
本モデルでは,最先端の作業に対する忠実度と時間的整合性に大きな改善が見られた。
論文 参考訳(メタデータ) (2020-02-23T13:46:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。