論文の概要: SoundPlot: An Open-Source Framework for Birdsong Acoustic Analysis and Neural Synthesis with Interactive 3D Visualization
- arxiv url: http://arxiv.org/abs/2601.12752v1
- Date: Mon, 19 Jan 2026 06:17:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.776459
- Title: SoundPlot: An Open-Source Framework for Birdsong Acoustic Analysis and Neural Synthesis with Interactive 3D Visualization
- Title(参考訳): SoundPlot: 対話型3次元可視化による鳥声音響解析とニューラル合成のためのオープンソースフレームワーク
- Authors: Naqcho Ali Mehdi, Mohammad Adeel, Aizaz Ali Larik,
- Abstract要約: 本稿では,鳥の発声を解析するためのオープンソースのフレームワークSoundPlotを紹介する。
システムは音声信号を多次元音響特徴空間に変換する。
SoundPlotは、バイオ音響学、オーディオ信号処理、計算倫理学の研究を促進するためにMITライセンス下でリリースされた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present SoundPlot, an open-source framework for analyzing avian vocalizations through acoustic feature extraction, dimensionality reduction, and neural audio synthesis. The system transforms audio signals into a multi-dimensional acoustic feature space, enabling real-time visualization of temporal dynamics in 3D using web-based interactive graphics. Our framework implements a complete analysis-synthesis pipeline that extracts spectral features (centroid, bandwidth, contrast), pitch contours via probabilistic YIN (pYIN), and mel-frequency cepstral coefficients (MFCCs), mapping them to a unified timbre space for visualization. Audio reconstruction employs the Griffin-Lim phase estimation algorithm applied to mel spectrograms. The accompanying Three.js-based interface provides dual-viewport visualization comparing original and synthesized audio trajectories with independent playback controls. We demonstrate the framework's capabilities through comprehensive waveform analysis, spectrogram comparisons, and feature space evaluation using Principal Component Analysis (PCA). Quantitative evaluation shows mel spectrogram correlation scores exceeding 0.92, indicating high-fidelity preservation of perceptual acoustic structure. SoundPlot is released under the MIT License to facilitate research in bioacoustics, audio signal processing, and computational ethology.
- Abstract(参考訳): 本研究では, 音響特徴抽出, 次元減少, ニューラルオーディオ合成を通じて, 鳥の発声を解析するためのオープンソースのフレームワークSoundPlotを提案する。
システムは音声信号を多次元音響特徴空間に変換し、Webベースのインタラクティブグラフィックスを用いて3次元の時間的ダイナミクスをリアルタイムに可視化する。
提案フレームワークは,スペクトル特徴(セントロイド,帯域幅,コントラスト),確率的YIN(pYIN),メル周波数ケプストラム係数(MFCC)を抽出した完全な分析合成パイプラインを実装し,それらを可視化のために統一された音色空間にマッピングする。
メルスペクトログラムに適用したGriffin-Lim位相推定アルゴリズムを用いる。
付属するThree.jsベースのインタフェースは、オリジナルのオーディオトラジェクトリと合成オーディオトラジェクトリを独立した再生制御と比較するデュアルビューポートの可視化を提供する。
本稿では,包括的波形解析,スペクトログラム比較,主成分分析(PCA)を用いた特徴空間評価を通じて,フレームワークの機能を示す。
定量的評価では, メルスペクトル相関スコアは0.92以上であり, 知覚音響構造の高忠実性保存性を示す。
SoundPlotは、バイオ音響学、オーディオ信号処理、計算倫理学の研究を促進するためにMITライセンス下でリリースされた。
関連論文リスト
- AV-Surf: Surface-Enhanced Geometry-Aware Novel-View Acoustic Synthesis [4.751910547396398]
複雑な実環境下での音響伝搬の正確なモデル化は、新しい視点音響合成(NVAS)に不可欠である
空間音響モデルを改善するため,NVASのための表面形状認識手法を提案する。
本稿では,エミッタ周辺を理解するために,幾何的制約を周波数クエリに組み込んだ2つのクロスアテンション型変換器を提案する。
論文 参考訳(メタデータ) (2025-03-17T04:22:53Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - Novel-View Acoustic Synthesis [140.1107768313269]
本稿では,NVASタスクについて紹介する。
音源の視点で観測された視界と音から 見えない対象の視点から そのシーンの音を合成できるか?
空間内の任意の点の音を合成することを学ぶ視覚誘導音響合成(ViGAS)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-20T18:49:58Z) - Vector-Quantized Timbre Representation [53.828476137089325]
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。
音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。
オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
論文 参考訳(メタデータ) (2020-07-13T12:35:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。