論文の概要: Acoustic scene classification using auditory datasets
- arxiv url: http://arxiv.org/abs/2112.13450v1
- Date: Sun, 26 Dec 2021 21:06:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-29 02:50:15.285181
- Title: Acoustic scene classification using auditory datasets
- Title(参考訳): 聴覚データセットを用いた音響シーン分類
- Authors: Jayesh Kumpawat and Shubhajit Dey
- Abstract要約: 物理制御スペクトログラムは、目の前の問題の厳しい要求にどのように対処するかを探求すると共に、このプロジェクトで最適化されている。
このプロジェクトでは、周波数マスキングやランダム周波数時間ストレッチといったオーディオデータセットのデータ分析とデータ拡張の改善が使用されている。
短期・長期のトンネルの潜在的な範囲と今後の研究のオープニングが提示されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The approach used not only challenges some of the fundamental mathematical
techniques used so far in early experiments of the same trend but also
introduces new scopes and new horizons for interesting results. The physics
governing spectrograms have been optimized in the project along with exploring
how it handles the intense requirements of the problem at hand. Major
contributions and developments brought under the light, through this project
involve using better mathematical techniques and problem-specific machine
learning methods. Improvised data analysis and data augmentation for audio
datasets like frequency masking and random frequency-time stretching are used
in the project and hence are explained in this paper. In the used methodology,
the audio transforms principle were also tried and explored, and indeed the
insights gained were used constructively in the later stages of the project.
Using a deep learning principle is surely one of them. Also, in this paper, the
potential scopes and upcoming research openings in both short and long term
tunnel of time has been presented. Although much of the results gained are
domain-specific as of now, they are surely potent enough to produce novel
solutions in various different domains of diverse backgrounds.
- Abstract(参考訳): このアプローチは、同じ傾向の初期の実験でこれまでに使われた基本的な数学的手法に挑戦するだけでなく、興味深い結果のために新しいスコープと新しい地平線を導入している。
スペクトログラムを管理する物理学はこのプロジェクトで最適化され、目の前の問題の厳しい要件をどう処理するかを探求している。
このプロジェクトを通じて、より優れた数学的技術と問題固有の機械学習手法の使用を含む、主要なコントリビューションと開発が行われた。
このプロジェクトでは、周波数マスキングやランダム周波数時間ストレッチといったオーディオデータセットのデータ分析とデータ拡張が改良されており、本稿で解説する。
使用する方法論では、オーディオトランスフォーメーションの原理も検討され、実際に得られた洞察はプロジェクトの後半で建設的に使用された。
ディープラーニングの原則を使うこともそのひとつです。
また,本論文では,短期トンネルと長期トンネルの両方における潜在的スコープと今後の研究開口について述べる。
得られた結果の多くは、現在、ドメイン固有のものであるが、様々な背景を持つ様々な異なるドメインで新しいソリューションを作るのに十分強力であることは間違いない。
関連論文リスト
- Physics and Deep Learning in Computational Wave Imaging [24.99422165859396]
計算波イメージング(CWI)は、物質体積の隠れ構造と物理的性質を抽出する。
CWI問題を解くための現在のアプローチは、伝統的な物理学に根ざしたものと、ディープラーニングに基づくものに分けられる。
機械学習ベースの計算手法が登場し、これらの課題に対処するための異なる視点を提供する。
論文 参考訳(メタデータ) (2024-10-10T19:32:17Z) - State-Space Modeling in Long Sequence Processing: A Survey on Recurrence in the Transformer Era [59.279784235147254]
このサーベイは、シーケンシャルなデータ処理の反復モデルに基づく最新のアプローチの詳細な概要を提供する。
新たなイメージは、標準のバックプロパゲーション・オブ・タイムから外れた学習アルゴリズムによって構成される、新しいルートを考える余地があることを示唆している。
論文 参考訳(メタデータ) (2024-06-13T12:51:22Z) - Frequency-Aware Deepfake Detection: Improving Generalizability through
Frequency Space Learning [81.98675881423131]
この研究は、目に見えないディープフェイク画像を効果的に識別できるユニバーサルディープフェイク検出器を開発するという課題に対処する。
既存の周波数ベースのパラダイムは、偽造検出のためにGANパイプラインのアップサンプリング中に導入された周波数レベルのアーティファクトに依存している。
本稿では、周波数領域学習を中心にしたFreqNetと呼ばれる新しい周波数認識手法を導入し、ディープフェイク検出器の一般化性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-03-12T01:28:00Z) - Data Augmentations in Deep Weight Spaces [89.45272760013928]
そこで本研究では,Mixup法に基づく新しい拡張手法を提案する。
既存のベンチマークと新しいベンチマークでこれらのテクニックのパフォーマンスを評価する。
論文 参考訳(メタデータ) (2023-11-15T10:43:13Z) - Generative adversarial networks with physical sound field priors [6.256923690998173]
本稿では,GANを用いた音場再構築のための深層学習に基づくアプローチを提案する。
提案手法は, 平面波ベースと室内圧力の統計的分布を用いて, 限られた数の測定値から音場を再構成する。
提案手法は, 音場再構成に有望な手法であることを示す。
論文 参考訳(メタデータ) (2023-08-01T10:11:23Z) - Data Augmentation techniques in time series domain: A survey and
taxonomy [0.20971479389679332]
時系列を扱うディープニューラルネットワークは、トレーニングで使用されるデータセットのサイズと一貫性に大きく依存する。
この研究は、すべての利用可能なアルゴリズムの概要を提供するために、この分野の最先端を体系的にレビューする。
本研究の究極的な目的は、この分野の将来の研究者を導くために、より良い結果をもたらす領域の進化と性能を概説することである。
論文 参考訳(メタデータ) (2022-06-25T17:09:00Z) - Single-Layer Vision Transformers for More Accurate Early Exits with Less
Overhead [88.17413955380262]
視覚変換器アーキテクチャに基づく早期退避のための新しいアーキテクチャを提案する。
本手法は分類問題と回帰問題の両方に有効であることを示す。
また,音声視覚データ解析において,早期出口に音声と視覚のモダリティを統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-19T13:30:34Z) - Acoustic Structure Inverse Design and Optimization Using Deep Learning [7.566801065167986]
本研究では,ディープラーニングに基づく音響構造設計手法を提案する。
提案手法の有効性を実験的に実証した。
我々の手法はより効率的で、普遍的で、自動化されており、幅広い応用が期待できる。
論文 参考訳(メタデータ) (2021-01-29T10:43:51Z) - Deep learning for time series classification [2.0305676256390934]
時系列分析により、時間の経過とともにプロセスの進化を可視化し、理解することができます。
時系列分類は時系列データを自動的にラベル付けするアルゴリズムで構成されている。
ディープラーニングは、教師付き分類タスクに対処する最も効果的な方法の1つとして登場した。
論文 参考訳(メタデータ) (2020-10-01T17:38:40Z) - Collaborative Distillation in the Parameter and Spectrum Domains for
Video Action Recognition [79.60708268515293]
本稿では,行動認識のための小型かつ効率的なネットワークの訓練方法について検討する。
周波数領域における2つの蒸留戦略,すなわち特徴スペクトルとパラメータ分布蒸留を提案する。
提案手法は,同じバックボーンを持つ最先端の手法よりも高い性能を実現することができる。
論文 参考訳(メタデータ) (2020-09-15T07:29:57Z) - SeismiQB -- a novel framework for deep learning with seismic data [62.997667081978825]
ニューラルネットワークの開発に重点を置いた、オープンソースのPythonフレームワークを開発しました。
複数のデータフォーマットで地震波キューブを高速にロードする便利なツールを提供する。
また、望まれる形状の作物を生産し、様々な変換で増強する。
論文 参考訳(メタデータ) (2020-01-10T10:45:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。