Fugu-MT 論文翻訳(概要): Modelling black-box audio effects with time-varying feature modulation

論文の概要: Modelling black-box audio effects with time-varying feature modulation

arxiv url: http://arxiv.org/abs/2211.00497v1
Date: Tue, 1 Nov 2022 14:41:57 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-02 13:44:24.139056
Title: Modelling black-box audio effects with time-varying feature modulation
Title（参考訳）: 時間変動特徴変調によるブラックボックス音響効果のモデル化
Authors: Marco Comunit\`a, Christian J. Steinmetz, Huy Phan, Joshua D. Reiss
Abstract要約: ファズやダイナミックレンジ圧縮などの音響効果をモデル化する場合,既存のアーキテクチャの幅,深さ,拡張係数のスケーリングは良好な性能を得られないことを示す。時間的特徴量線形変調を既存の時間的畳み込みバックボーンに統合することを提案する。提案手法は,時間領域と周波数領域の双方において,ファズ・コンプレッサー実装の長距離依存性をより正確に捉えることができることを示す。
参考スコア（独自算出の注目度）: 13.378050193507907
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep learning approaches for black-box modelling of audio effects have shown promise, however, the majority of existing work focuses on nonlinear effects with behaviour on relatively short time-scales, such as guitar amplifiers and distortion. While recurrent and convolutional architectures can theoretically be extended to capture behaviour at longer time scales, we show that simply scaling the width, depth, or dilation factor of existing architectures does not result in satisfactory performance when modelling audio effects such as fuzz and dynamic range compression. To address this, we propose the integration of time-varying feature-wise linear modulation into existing temporal convolutional backbones, an approach that enables learnable adaptation of the intermediate activations. We demonstrate that our approach more accurately captures long-range dependencies for a range of fuzz and compressor implementations across both time and frequency domain metrics. We provide sound examples, source code, and pretrained models to faciliate reproducibility.
Abstract（参考訳）: 音声効果のブラックボックスモデリングのためのディープラーニングアプローチは期待されているが、既存の研究の大部分は、ギターアンプや歪みといった比較的短い時間スケールでの振る舞いを伴う非線形効果に焦点を当てている。再帰的および畳み込み的アーキテクチャは、より長い時間スケールで振る舞いを捉えるために理論的に拡張できるが、既存のアーキテクチャの幅、深さ、拡張係数を単純にスケーリングするだけでは、ファズやダイナミックレンジ圧縮のようなオーディオ効果をモデル化する場合には、十分な性能が得られないことを示す。そこで本研究では,時間変化による特徴量線形変調を時間的畳み込みバックボーンに統合し,中間アクティベーションの学習可能な適応を可能にする手法を提案する。提案手法は,時間領域と周波数領域の両方で,ファズ・コンプレッサー実装の長距離依存性をより正確に把握する。再現性を高めるために、音響サンプル、ソースコード、事前訓練されたモデルを提供する。

関連論文リスト

Gradient-based Optimisation of Modulation Effects [8.97214437002284]
本稿では,異なるディジタル信号処理に基づいて,フランガー,コーラス,位相効果をモデル化する枠組みを提案する。モデルは時間周波数領域でトレーニングされるが、推論時には時間領域で動作し、遅延はゼロである。アナログ効果ユニットに対して訓練した場合、モデルから出力される音は、参照とは知覚的に区別できない場合もある。
論文参考訳（メタデータ） (2026-01-08T12:04:41Z)
Time-Varying Audio Effect Modeling by End-to-End Adversarial Training [0.6688641196358245]
本稿では,入力出力音声のみを用いて効果をモデル化するためのGAN(Generative Adversarial Network)フレームワークを提案する。最初の逆相は、厳密な位相制約なしに変調挙動の分布を学習することを可能にする。状態予測ネットワーク(SPN)は、モデルとターゲットを同期させるために必要な初期内部状態を推定する。
論文参考訳（メタデータ） (2025-12-17T11:04:39Z)
Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length [57.458450695137664]
提案するLive Avatarは,効率的,高忠実,無限長アバター生成のためのアルゴリズム設計のフレームワークである。ライブアバターは、このスケールで実用的でリアルタイムで高忠実なアバター生成を実現するのが最初である。
論文参考訳（メタデータ） (2025-12-04T11:11:24Z)
Noise Hypernetworks: Amortizing Test-Time Compute in Diffusion Models [57.49136894315871]
テストタイムスケーリングの新しいパラダイムは、推論モデルと生成視覚モデルにおいて驚くべきブレークスルーをもたらした。本稿では,テスト時間スケーリングの知識をモデルに組み込むことの課題に対する1つの解決策を提案する。拡散モデルにおいて、初期入力ノイズを変調するノイズハイパーネットワークにより、報酬誘導試験時間雑音の最適化を行う。
論文参考訳（メタデータ） (2025-08-13T17:33:37Z)
FolAI: Synchronized Foley Sound Generation with Semantic and Temporal Alignment [11.796771978828403]
ビデオから時間的コヒーレントかつ意味論的に制御可能な音響効果を生成する2段階生成フレームワークであるFolAIを紹介する。その結果、我々のモデルは、時間的に視覚運動に整合し、意味的にユーザ意図と整合し、知覚的にリアルな音声を確実に生成することがわかった。これらの知見は、FolAIがプロと対話的な環境でスケーラブルで高品質なフォーリー音声合成のための、制御可能でモジュラーなソリューションとしての可能性を強調している。
論文参考訳（メタデータ） (2024-12-19T16:37:19Z)
Towards Scalable and Deep Graph Neural Networks via Noise Masking [59.058558158296265]
グラフニューラルネットワーク(GNN)は多くのグラフマイニングタスクで顕著に成功している。計算とストレージのコストが高いため、大きなグラフにスケールすることは困難です。既存のモデル単純化作業と互換性のあるプラグアンドプレイモジュールであるノイズマスキング(RMask)を用いたランダムウォークを提案する。
論文参考訳（メタデータ） (2024-12-19T07:48:14Z)
Comparative Study of State-based Neural Networks for Virtual Analog Audio Effects Modeling [0.0]
本稿では,仮想アナログモデリングにおける機械学習の応用について考察する。我々は、ステートスペースモデルと線形リカレントユニットを、より一般的なLong Short-Term Memoryネットワークと比較する。
論文参考訳（メタデータ） (2024-05-07T08:47:40Z)
TSLANet: Rethinking Transformers for Time Series Representation Learning [19.795353886621715]
時系列データは、その固有の長短の依存関係によって特徴づけられる。本稿では,時系列タスクの普遍的畳み込みモデルとして,新しい時系列軽量ネットワーク(TSLANet)を導入する。我々の実験では、TSLANetは分類、予測、異常検出にまたがる様々なタスクにおいて最先端のモデルよりも優れていることを示した。
論文参考訳（メタデータ） (2024-04-12T13:41:29Z)
Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。 DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文参考訳（メタデータ） (2023-11-09T05:24:20Z)
Differentiable Grey-box Modelling of Phaser Effects using Frame-based Spectral Processing [21.053861381437827]
本研究は位相効果をモデル化するデジタル信号処理手法を提案する。提案モデルでは,周波数領域に時間変化フィルタを実装するために,短いフレームで音声を処理する。このモデルでは、解釈可能なパラメータと調整可能なパラメータを保持しながら、アナログ参照デバイスをエミュレートするように訓練できることが示される。
論文参考訳（メタデータ） (2023-06-02T07:53:41Z)
On Compressing Sequences for Self-Supervised Speech Models [78.62210521316081]
自己教師型学習における時間軸に沿った固定長と可変長のサブサンプリングについて検討した。可変長サブサンプリングは,低フレームレートで特に良好に動作することがわかった。音素境界にアクセスできる場合、平均フレームレートが10Hz以下の場合、性能の劣化は見つからない。
論文参考訳（メタデータ） (2022-10-13T17:10:02Z)
Streamable Neural Audio Synthesis With Non-Causal Convolutions [1.8275108630751844]
非因果的ストリーミングモデルを生成するための新しい手法を提案する。これにより、任意の畳み込みモデルをリアルタイムバッファベースの処理と互換性を持たせることができる。並列ブランチで複雑なアーキテクチャに適合させる方法を示す。
論文参考訳（メタデータ） (2022-04-14T16:00:32Z)
Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文参考訳（メタデータ） (2020-06-23T09:19:13Z)
Learn to cycle: Time-consistent feature discovery for action recognition [83.43682368129072]
時間的変動を一般化することは、ビデオにおける効果的な行動認識の前提条件である。 Squeeze Re Temporal Gates (SRTG) を導入する。 SRTPGブロックを使用する場合,GFLOの数は最小限に抑えられ,一貫した改善が見られた。
論文参考訳（メタデータ） (2020-06-15T09:36:28Z)
Exploring Quality and Generalizability in Parameterized Neural Audio Effects [0.0]
ディープニューラルネットワークは、音楽オーディオ信号処理アプリケーションへの期待を示している。これまでの結果は、低サンプリング率、ノイズ、信号タイプの狭い領域、および/またはパラメータ化制御の欠如によって制約される傾向にあった。本研究は、非線形時間依存信号処理効果のモデル化に関する先行研究を拡大する。
論文参考訳（メタデータ） (2020-06-10T00:52:08Z)
Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2020-02-21T05:00:01Z)
Temporal-Spatial Neural Filter: Direction Informed End-to-End Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。主な課題は、複雑な音響環境とリアルタイム処理の要件である。複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文参考訳（メタデータ） (2020-01-02T11:12:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。