論文の概要: CONMOD: Controllable Neural Frame-based Modulation Effects
- arxiv url: http://arxiv.org/abs/2406.13935v1
- Date: Thu, 20 Jun 2024 02:02:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 17:46:37.855701
- Title: CONMOD: Controllable Neural Frame-based Modulation Effects
- Title(参考訳): CONMOD: 制御可能なニューラルフレームに基づく変調効果
- Authors: Gyubin Lee, Hounsu Kim, Junwon Lee, Juhan Nam,
- Abstract要約: 制御可能なニューラルフレームに基づく変調効果(CONMOD)は,フレームワイド方式で様々なLFO駆動効果をエミュレートする単一のブラックボックスモデルである。
このモデルは、2つの異なる位相効果の連続的な埋め込み空間を学習し、その効果を操り、創造的な出力を達成することができる。
- 参考スコア(独自算出の注目度): 6.132272910797383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning models have seen widespread use in modelling LFO-driven audio effects, such as phaser and flanger. Although existing neural architectures exhibit high-quality emulation of individual effects, they do not possess the capability to manipulate the output via control parameters. To address this issue, we introduce Controllable Neural Frame-based Modulation Effects (CONMOD), a single black-box model which emulates various LFO-driven effects in a frame-wise manner, offering control over LFO frequency and feedback parameters. Additionally, the model is capable of learning the continuous embedding space of two distinct phaser effects, enabling us to steer between effects and achieve creative outputs. Our model outperforms previous work while possessing both controllability and universality, presenting opportunities to enhance creativity in modern LFO-driven audio effects.
- Abstract(参考訳): ディープラーニングモデルは、フェーズラやフランガーといったLFO駆動オーディオエフェクトのモデル化に広く利用されている。
既存のニューラルネットワークアーキテクチャは、個々の効果の高品質なエミュレーションを示すが、制御パラメータを介して出力を操作する能力は持っていない。
この問題に対処するために、制御可能なニューラルネットワークベースの変調効果(CONMOD)を導入し、フレームワイドで様々なLFO駆動効果をエミュレートし、LFO周波数とフィードバックパラメータを制御する単一のブラックボックスモデルを提案する。
さらに、モデルは2つの異なる位相効果の連続的な埋め込み空間を学習し、その効果を操り、創造的な出力を達成することができる。
我々のモデルは、制御性と普遍性を両立させ、現代のLFO駆動オーディオ効果の創造性を向上する機会を提示しながら、過去の作業より優れていた。
関連論文リスト
- Towards Neural Scaling Laws for Time Series Foundation Models [63.5211738245487]
我々は、エンコーダオンリーとデコーダオンリーのトランスフォーマーの2つの一般的なTSFMアーキテクチャについて検討し、IDおよびOODデータのスケーリング挙動について検討する。
実験の結果,TSFMのログライクな損失はOODとID設定の両方で同様のスケーリング挙動を示すことがわかった。
モデル機能を強化した大規模TSFMの設計とスケーリングのための実用的なガイドラインを提供する。
論文 参考訳(メタデータ) (2024-10-16T08:23:39Z) - Towards Real-Time Neural Volumetric Rendering on Mobile Devices: A Measurement Study [12.392923990003753]
我々は,システムの観点から,最先端のリアルタイムNeRFレンダリング技術について検討する。
まず、NeRFサービスシステムの動作パイプライン全体を定義する。
次に,コミュニケーション,計算,視覚的パフォーマンスの観点から,システムにとって重要な制御ノブを同定する。
論文 参考訳(メタデータ) (2024-06-23T10:33:26Z) - DITTO: Diffusion Inference-Time T-Optimization for Music Generation [49.90109850026932]
Diffusion Inference-Time T-Optimization (DITTO) は、事前訓練されたテキストから音楽への拡散モデルを推論時に制御するためのフレームワークである。
我々は、インペイント、アウトペイント、ループ化、強度、メロディ、音楽構造制御など、驚くほど幅広い音楽生成応用を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:10:10Z) - Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。
提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2023-11-09T05:24:20Z) - Differentiable Grey-box Modelling of Phaser Effects using Frame-based
Spectral Processing [21.053861381437827]
本研究は位相効果をモデル化するデジタル信号処理手法を提案する。
提案モデルでは,周波数領域に時間変化フィルタを実装するために,短いフレームで音声を処理する。
このモデルでは、解釈可能なパラメータと調整可能なパラメータを保持しながら、アナログ参照デバイスをエミュレートするように訓練できることが示される。
論文 参考訳(メタデータ) (2023-06-02T07:53:41Z) - Modulation Extraction for LFO-driven Audio Effects [5.740770499256802]
本稿では,複数のディジタルオーディオ効果,パラメータ設定,楽器構成にまたがって処理された音声から任意のLFO信号を抽出できるフレームワークを提案する。
本稿では,抽出モデルを単純な処理ネットワークと組み合わせることで,未知のアナログやデジタルLFO駆動音声効果の終端から終端までのブラックボックスモデルの訓練を可能にすることを示す。
コードを利用可能にし、訓練されたオーディオエフェクトモデルをリアルタイムVSTプラグインで提供します。
論文 参考訳(メタデータ) (2023-05-22T17:33:07Z) - Modelling black-box audio effects with time-varying feature modulation [13.378050193507907]
ファズやダイナミックレンジ圧縮などの音響効果をモデル化する場合,既存のアーキテクチャの幅,深さ,拡張係数のスケーリングは良好な性能を得られないことを示す。
時間的特徴量線形変調を既存の時間的畳み込みバックボーンに統合することを提案する。
提案手法は,時間領域と周波数領域の双方において,ファズ・コンプレッサー実装の長距離依存性をより正確に捉えることができることを示す。
論文 参考訳(メタデータ) (2022-11-01T14:41:57Z) - Effect of Batch Normalization on Noise Resistant Property of Deep
Learning Models [3.520496620951778]
モデルの重みに変化をもたらすアナログノイズの存在が、ディープラーニングモデルの性能劣化を引き起こすという懸念がある。
本研究では,一般的なバッチ正規化層がディープラーニングモデルの耐雑音性に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2022-05-15T20:10:21Z) - Real-time Neural-MPC: Deep Learning Model Predictive Control for
Quadrotors and Agile Robotic Platforms [59.03426963238452]
モデル予測制御パイプライン内の動的モデルとして,大規模で複雑なニューラルネットワークアーキテクチャを効率的に統合するフレームワークであるReal-time Neural MPCを提案する。
ニューラルネットワークを使わずに、最先端のMPCアプローチと比較して、位置追跡誤差を最大82%削減することで、実世界の問題に対する我々のフレームワークの実現可能性を示す。
論文 参考訳(メタデータ) (2022-03-15T09:38:15Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Flexible Image Denoising with Multi-layer Conditional Feature Modulation [56.018132592622706]
条件付き特徴変調(CFM)モジュールを備えたU-Netバックボーンを備えることにより,新しいフレキシブル画像符号化ネットワーク(CFMNet)を提案する。
CFMNetは、第1層のみのチャネルワイドシフトと比較して、複数のCFM層を配置することでノイズレベル情報をよりよく利用することができる。
我々のCFMNetは、フレキシブルな非盲検のためのノイズレベル情報を利用するのに有効であり、定量的メトリクスと視覚的品質の両方の観点から、既存の深部画像復調法に対して好適に機能する。
論文 参考訳(メタデータ) (2020-06-24T06:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。