Fugu-MT 論文翻訳(概要): Continuous descriptor-based control for deep audio synthesis

論文の概要: Continuous descriptor-based control for deep audio synthesis

arxiv url: http://arxiv.org/abs/2302.13542v1
Date: Mon, 27 Feb 2023 06:40:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-28 16:43:47.676892
Title: Continuous descriptor-based control for deep audio synthesis
Title（参考訳）: ディープオーディオ合成のための連続ディスクリプタに基づく制御
Authors: Ninon Devis, Nils Demerl\'e, Sarah Nabi, David Genova, Philippe Esling
Abstract要約: 本稿では,表現的かつ連続的な記述子に基づく制御が可能な音声モデルを提案する。我々は、潜在空間における音楽的特徴を明示的に除去することで、リアルタイム生成の制御性を強制する。本研究では, 楽器, 打楽器, 音声録音など, 様々な音質において, 提案手法の性能を評価する。
参考スコア（独自算出の注目度）: 1.2599533416395767
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite significant advances in deep models for music generation, the use of these techniques remains restricted to expert users. Before being democratized among musicians, generative models must first provide expressive control over the generation, as this conditions the integration of deep generative models in creative workflows. In this paper, we tackle this issue by introducing a deep generative audio model providing expressive and continuous descriptor-based control, while remaining lightweight enough to be embedded in a hardware synthesizer. We enforce the controllability of real-time generation by explicitly removing salient musical features in the latent space using an adversarial confusion criterion. User-specified features are then reintroduced as additional conditioning information, allowing for continuous control of the generation, akin to a synthesizer knob. We assess the performance of our method on a wide variety of sounds including instrumental, percussive and speech recordings while providing both timbre and attributes transfer, allowing new ways of generating sounds.
Abstract（参考訳）: 音楽生成のための深層モデルの大幅な進歩にもかかわらず、これらの技術の使用は専門家に限られている。音楽家の間で民主化される前に、生成モデルはまず、創造的ワークフローにおける深い生成モデルの統合を条件として、生成を表現的に制御する必要がある。本稿では,ハードウェアシンセサイザに組み込むのに十分な軽量性を維持しつつ,表現豊かで連続的なディスクリプタベースの制御を提供する,深い生成型オーディオモデルを導入することで,この問題に取り組む。我々は,対向的混乱基準を用いて,潜在空間における有意な音楽特徴を明示的に除去し,リアルタイム生成の制御性を強制する。ユーザが指定した機能は追加のコンディショニング情報として再導入され、シンセサイザーノブのような生成を連続的に制御することができる。本手法は,楽器,打楽器,音声録音を含む多種多様な音声に対して,音色と属性の伝達を両立させながら評価し,新たな音声生成法を提案する。

関連論文リスト

JAM: A Tiny Flow-based Song Generator with Fine-grained Controllability and Aesthetic Alignment [26.590667516155083]
拡散モデルとフローマッチングモデルは、自動テキスト・オーディオ生成に革命をもたらした。近年のオープン・ソング・トゥ・ソング・モデルは、レクリエーション用の自動曲生成において受け入れられる標準となっている。フローマッチングに基づくJAMは,曲生成における単語レベルのタイミングと持続時間制御を実現するための最初の試みである。
論文参考訳（メタデータ） (2025-07-28T14:34:02Z)
Controllable Video Generation: A Survey [72.38313362192784]
本稿では、制御可能なビデオ生成の体系的レビューを行い、理論的基礎と最近の現場の進歩の両方について述べる。まず、主要な概念を導入し、一般的に使われているオープンソースビデオ生成モデルを紹介します。次に、映像拡散モデルにおける制御機構に着目し、生成を誘導する認知過程に異なる種類の条件を組み込む方法について分析する。
論文参考訳（メタデータ） (2025-07-22T06:05:34Z)
EditGen: Harnessing Cross-Attention Control for Instruction-Based Auto-Regressive Audio Editing [54.10773655199149]
自動回帰モデルにおける効率的な音声編集のためのクロスアテンション制御の活用について検討する。画像編集手法に触発されて,横断的・自己認識的メカニズムを通じて編集をガイドするPrompt-to-Promptライクなアプローチを開発した。
論文参考訳（メタデータ） (2025-07-15T08:44:11Z)
Fine-Grained control over Music Generation with Activation Steering [0.0]
本稿では,MusicGen と呼ばれる自己回帰生成型音楽変換器への推論時間介入による音楽生成のきめ細かい制御法を提案する。本手法は, 学習した線形プローブの重みを用いて残差流を操り, 音色伝達, スタイル伝達, ジャンル融合を可能にする。
論文参考訳（メタデータ） (2025-06-11T23:02:39Z)
Extending Visual Dynamics for Video-to-Music Generation [51.274561293909926]
DyViMは、ビデオから音楽への生成のための動的モデリングを強化する新しいフレームワークである。高レベルのセマンティクスは、クロスアテンションメカニズムを通じて伝達される。実験では、DyViMが最先端(SOTA)法よりも優れていることを示した。
論文参考訳（メタデータ） (2025-04-10T09:47:26Z)
Revealing the Implicit Noise-based Imprint of Generative Models [71.94916898756684]
本稿では,検出タスクにノイズに基づくモデル固有インプリントを利用する新しいフレームワークを提案する。様々な生成モデルからのインプリントを集約することにより、将来のモデルのインプリントを外挿してトレーニングデータを拡張することができる。提案手法は,GenImage,Synthbuster,Chameleonの3つの公開ベンチマークにおいて,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-03-12T12:04:53Z)
SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation [75.86473375730392]
SongGenは、コントロール可能な曲を生成するための、完全なオープンソースでシングルステージの自動回帰トランスフォーマーである。音声と伴奏の混合を生成する混合モードと、それらを別々に合成するデュアルトラックモードの2つの出力モードをサポートする。コミュニティの関与と今後の研究を促進するため、私たちは、モデルの重み付け、トレーニングコード、注釈付きデータ、前処理パイプラインをリリースします。
論文参考訳（メタデータ） (2025-02-18T18:52:21Z)
Robust AI-Synthesized Speech Detection Using Feature Decomposition Learning and Synthesizer Feature Augmentation [52.0893266767733]
本稿では,特徴分解を利用して合成者非依存のコンテンツ特徴を学習する頑健なディープフェイク音声検出手法を提案する。異なる合成器特性に対するモデルのロバスト性を高めるために,合成器の特徴増強戦略を提案する。
論文参考訳（メタデータ） (2024-11-14T03:57:21Z)
Combining audio control and style transfer using latent diffusion [1.705371629600151]
本稿では,単一モデル内での明示的な制御とスタイル転送を統一することを目的とする。我々のモデルは、明示的な制御または他のオーディオ例を通して構造を指定しながら、音色ターゲットにマッチする音声を生成することができる。本手法は,異なるジャンルのターゲットオーディオのスタイルにリズミカル・メロディックなコンテンツを転送することで,完全な楽曲のカバーバージョンを生成することができることを示す。
論文参考訳（メタデータ） (2024-07-31T23:27:27Z)
MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss [51.85076222868963]
制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
論文参考訳（メタデータ） (2024-07-05T08:08:22Z)
Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文参考訳（メタデータ） (2024-03-18T13:39:05Z)
Bass Accompaniment Generation via Latent Diffusion [0.0]
任意の長さのミキシングに付随する単一茎を生成する制御可能なシステムを提案する。本手法のコアとなるのは、音声波形サンプルを効率よく非可逆な潜在表現に圧縮するオーディオオートエンコーダである。制御可能な条件付きオーディオ生成フレームワークは、音楽制作においてミュージシャンを支援するための生成AIツールを作成する上で、大きな前進となる。
論文参考訳（メタデータ） (2024-02-02T13:44:47Z)
Performance Conditioning for Diffusion-Based Multi-Instrument Music Synthesis [15.670399197114012]
本稿では,特定の性能と記録環境に生成モデルを条件付け,多施設合成の制御を強化することを提案する。パフォーマンスコンディショニング(Performance Conditioning)とは、特定の演奏から採った特定の楽器のスタイルと音色で音楽を合成する生成モデルを示すツールである。試作機は,多種多様な楽器と最先端のFADリアリズムスコアを用いた未計算性能を用いて評価した。
論文参考訳（メタデータ） (2023-09-21T17:44:57Z)
Audio Generation with Multiple Conditional Diffusion Model [15.250081484817324]
本稿では,既存の事前学習型テキスト音声モデルの制御性を向上する新しいモデルを提案する。このアプローチは、生成された音声の時間的順序、ピッチ、エネルギーを細かく制御する。
論文参考訳（メタデータ） (2023-08-23T06:21:46Z)
Anticipatory Music Transformer [60.15347393822849]
本稿では、時間点過程の制御可能な生成モデルを構築する方法である予測を導入する。コントロールはイベント自体のサブセットであるので、コントロールタスクの充実に重点を置いています。大規模かつ多様なLakh MIDI音楽データセットを用いて予測入出力モデルを訓練する。
論文参考訳（メタデータ） (2023-06-14T16:27:53Z)
Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文参考訳（メタデータ） (2020-08-06T18:29:11Z)
Timbre latent space: exploration and creative aspects [1.3764085113103222]
近年の研究では、教師なしモデルがオートエンコーダを用いて可逆的な音声表現を学習できることが示されている。生成ニューラルネットワークによって、音色操作の新たな可能性が実現されている。
論文参考訳（メタデータ） (2020-08-04T07:08:04Z)
RL-Duet: Online Music Accompaniment Generation Using Deep Reinforcement Learning [69.20460466735852]
本稿では,オンライン伴奏生成のための深層強化学習アルゴリズムを提案する。提案アルゴリズムは人体に応答し,メロディック,ハーモニック,多種多様な機械部品を生成する。
論文参考訳（メタデータ） (2020-02-08T03:53:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。