Fugu-MT 論文翻訳(概要): Analysis-Driven Procedural Generation of an Engine Sound Dataset with Embedded Control Annotations

論文の概要: Analysis-Driven Procedural Generation of an Engine Sound Dataset with Embedded Control Annotations

arxiv url: http://arxiv.org/abs/2603.07584v1
Date: Sun, 08 Mar 2026 11:05:10 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-10 15:13:14.8898
Title: Analysis-Driven Procedural Generation of an Engine Sound Dataset with Embedded Control Annotations
Title（参考訳）: 組込み制御アノテーションを用いたエンジン音響データセットの解析駆動手続き生成
Authors: Robin Doerfler, Lonce Wyse,
Abstract要約: 計算エンジンの音響モデリングは、自動車オーディオ産業の中心である。これらのアプリケーションは、タイムアラインなオペレーティングシステムアノテーションを備えた、大量の標準化されたクリーンなオーディオ記録を必要とする。サンプル精度制御アノテーションを用いてエンジン音声を生成するための分析駆動フレームワークを提案する。
参考スコア（独自算出の注目度）: 0.45835414225547183
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Computational engine sound modeling is central to the automotive audio industry, particularly for active sound design, virtual prototyping, and emerging data-driven engine sound synthesis methods. These applications require large volumes of standardized, clean audio recordings with precisely time-aligned operating-state annotations: data that is difficult to obtain due to high costs, specialized measurement equipment requirements, and inevitable noise contamination. We present an analysis-driven framework for generating engine audio with sample-accurate control annotations. The method extracts harmonic structures from real recordings through pitch-adaptive spectral analysis, which then drive an extended parametric harmonic-plus-noise synthesizer. With this framework, we generate the Procedural Engine Sounds Dataset (19 hours, 5,935 files), a set of engine audio signals with sample-accurate RPM and torque annotations, spanning a wide range of operating conditions, signal complexities, and harmonic profiles. Comparison against real recordings validates that the synthesized data preserves characteristic harmonic structures, and baseline experiments confirm its suitability for learning-based parameter estimation and synthesis tasks. The dataset is released publicly to support research on engine timbre analysis, control parameter estimation, acoustic modeling and neural generative networks.
Abstract（参考訳）: 計算エンジンの音響モデリングは、特にアクティブな音設計、仮想プロトタイピング、新しいデータ駆動エンジンの音合成手法において、自動車オーディオ産業の中心である。これらのアプリケーションは、高コストで入手が難しいデータ、特殊な測定機器の要求、ノイズ汚染の回避といった、正確な時刻整合の動作状態アノテーションを備えた、多数の標準化されたクリーンオーディオ記録を必要とする。サンプル精度制御アノテーションを用いてエンジン音声を生成するための分析駆動フレームワークを提案する。この方法は、ピッチ適応スペクトル分析により実記録から調和構造を抽出し、拡張パラメトリック・ハーモニック+雑音合成器を駆動する。このフレームワークでは,サンプル精度のRPMとトルクアノテーションを備えたエンジン音声信号セットであるProcedural Engine Sounds Dataset(19時間5,935ファイル)を生成し,幅広い動作条件,信号複雑度,ハーモニックプロファイルにまたがる。実記録との比較により, 合成したデータは特性調和構造を保ち, ベースライン実験により, 学習に基づくパラメータ推定と合成作業に適していることが確認された。このデータセットは、エンジンの音色解析、制御パラメータ推定、音響モデリング、神経生成ネットワークの研究をサポートするために、一般公開されている。

関連論文リスト

Modulation Discovery with Differentiable Digital Signal Processing [3.428276755022932]
本稿では,変調抽出,制限された制御信号パラメータ化,微分可能なディジタル信号処理を活用するニューラルサウンドマッチング手法を提案する。コードとオーディオサンプルを利用可能にし、VSTプラグインでトレーニング済みのP構文を提供する。
論文参考訳（メタデータ） (2025-10-07T17:56:24Z)
Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文参考訳（メタデータ） (2024-10-06T01:03:42Z)
Comparative Study of State-based Neural Networks for Virtual Analog Audio Effects Modeling [0.0]
仮想アナログモデリングにおける最近の機械学習の応用について検討する。我々は、ステートスペースモデルと線形リカレントユニットを、より一般的なLSTMネットワークと比較する。我々の測定基準は、信号のエネルギーと周波数を正確に再現するモデルの能力を評価することを目的としている。
論文参考訳（メタデータ） (2024-05-07T08:47:40Z)
Realistic Noise Synthesis with Diffusion Models [44.404059914652194]
ディープラーニングモデルには、大規模な実世界のトレーニングデータが必要です。本稿では,これらの課題に対処するために拡散モデルを用いた新しい実音合成拡散器(RNSD)法を提案する。
論文参考訳（メタデータ） (2023-05-23T12:56:01Z)
An investigation of the reconstruction capacity of stacked convolutional autoencoders for log-mel-spectrograms [2.3204178451683264]
音声処理アプリケーションでは、ハイレベルな表現に基づく表現力のある音声の生成は、高い需要を示す。ニューラルネットワークのような現代のアルゴリズムは、楽器の圧縮に基づく表現型シンセサイザーの開発にインスピレーションを与えている。本研究では,多種多様な楽器に対する時間周波数音声表現の圧縮のための畳み込み畳み込みオートエンコーダについて検討した。
論文参考訳（メタデータ） (2023-01-18T17:19:04Z)
Using growth transform dynamical systems for spatio-temporal data sonification [9.721342507747158]
有意義な音声シグネチャで情報を符号化するソニフィケーションは、人間のループ内決定のための従来の可視化手法の強化や置き換えにいくつかの利点がある。本稿では,複雑な成長変換力学系モデルを用いて高次元データを音化するための新しい枠組みを提案する。本アルゴリズムは,学習タスクや予測タスクの根底にあるデータと最適化パラメータを入力として,ユーザが定義した心理パラメータと組み合わせる。
論文参考訳（メタデータ） (2021-08-21T16:25:59Z)
Vector-Quantized Timbre Representation [53.828476137089325]
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
論文参考訳（メタデータ） (2020-07-13T12:35:45Z)
VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文参考訳（メタデータ） (2020-03-30T16:05:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。