論文の概要: Latent Granular Resynthesis using Neural Audio Codecs
- arxiv url: http://arxiv.org/abs/2507.19202v1
- Date: Fri, 25 Jul 2025 12:14:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.947044
- Title: Latent Granular Resynthesis using Neural Audio Codecs
- Title(参考訳): ニューラルオーディオコーデックを用いた潜在粒状再生
- Authors: Nao Tokui, Tom Baker,
- Abstract要約: 本稿では,潜在ベクトルレベルでの粒状合成の概念を再構築することで,創造的な音声再生を実現する新しい手法を提案する。
提案手法は,ソース音声コーパスを潜在ベクトルセグメントに符号化し,ターゲット音声信号の各潜在粒度をコードブックに最も近いものとマッチングすることにより,"粒状コードブック"を作成する。
得られたハイブリッドシーケンスをデコードして、ソースの音節特性を採用しながら、ターゲットの時間構造を保存するオーディオを生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a novel technique for creative audio resynthesis that operates by reworking the concept of granular synthesis at the latent vector level. Our approach creates a "granular codebook" by encoding a source audio corpus into latent vector segments, then matches each latent grain of a target audio signal to its closest counterpart in the codebook. The resulting hybrid sequence is decoded to produce audio that preserves the target's temporal structure while adopting the source's timbral characteristics. This technique requires no model training, works with diverse audio materials, and naturally avoids the discontinuities typical of traditional concatenative synthesis through the codec's implicit interpolation during decoding. We include supplementary material at https://github.com/naotokui/latentgranular/ , as well as a proof-of-concept implementation to allow users to experiment with their own sounds at https://huggingface.co/spaces/naotokui/latentgranular .
- Abstract(参考訳): 本稿では,潜在ベクトルレベルでの粒状合成の概念を再構築することで,創造的な音声再生を実現する新しい手法を提案する。
提案手法は,ソース音声コーパスを潜在ベクトルセグメントに符号化し,ターゲット音声信号の各潜在粒度をコードブックに最も近いものとマッチングすることにより,"粒状コードブック"を作成する。
得られたハイブリッドシーケンスをデコードして、ソースの音節特性を採用しながら、ターゲットの時間構造を保存するオーディオを生成する。
このテクニックはモデルトレーニングを必要とせず、多様なオーディオ素材で動作し、デコード中のコーデックの暗黙の補間を通して従来のコンカニオン合成に典型的な不連続性を回避する。
https://github.com/naotokui/latentgranular/の補足資料や、ユーザが自身の音をhttps://huggingface.co/spaces/naotokui/latentgranular で試すための概念実証実装が含まれています。
関連論文リスト
- SecoustiCodec: Cross-Modal Aligned Streaming Single-Codecbook Speech Codec [83.61175662066364]
音声コーデックは、音声とテキスト言語モデルを統一するための重要なブリッジとして機能する。
既存の手法はセマンティックエンコーディングにおいていくつかの課題に直面している。
本稿では,クロスモーダルな低ビットレートストリーミング音声コーデックSecoustiCodecを提案する。
論文 参考訳(メタデータ) (2025-08-04T19:22:14Z) - TokenSynth: A Token-based Neural Synthesizer for Instrument Cloning and Text-to-Instrument [19.395289629201056]
Token Synthは、MIDIトークンとCLAP埋め込みからオーディオトークンを生成する新しいニューラルシンセサイザーである。
本モデルは,楽器のクローニング,テキスト間合成,テキスト誘導音色操作を行うことができる。
論文 参考訳(メタデータ) (2025-02-13T03:40:30Z) - FocalCodec: Low-Bitrate Speech Coding via Focal Modulation Networks [12.446324804274628]
FocalCodecは、単一のバイナリコードブックを使って音声を圧縮する焦点変調に基づく効率的な低ビットレートである。
デモサンプル、コード、チェックポイントはhttps://lucadellalib.io/focalcodec-web/.com/で公開されている。
論文 参考訳(メタデータ) (2025-02-06T19:24:50Z) - A Closer Look at Neural Codec Resynthesis: Bridging the Gap between Codec and Waveform Generation [65.05719674893999]
トークン予測と回帰に基づく2つの戦略について検討し,Schr"odinger Bridgeに基づく新しい手法を提案する。
異なるデザイン選択が機械と人間の知覚にどのように影響するかを検討する。
論文 参考訳(メタデータ) (2024-10-29T18:29:39Z) - Learning Source Disentanglement in Neural Audio Codec [20.335701584949526]
我々は、音源符号化と音源分離を組み合わせた新しいアプローチである、ソース分散ニューラルオーディオコーデック(SD-Codec)を紹介する。
SD-Codecは、音声の合成と分離を共同で学習することで、異なるドメインからの音声信号を異なるコードブック(離散表現の集合)に明示的に割り当てる。
実験結果から,SD-Codecは競合的再合成品質を維持するだけでなく,分離結果に支えられ,潜伏空間における異なるソースの絡み合いが成功したことが示唆された。
論文 参考訳(メタデータ) (2024-09-17T14:21:02Z) - VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - AudioLM: a Language Modeling Approach to Audio Generation [59.19364975706805]
本稿では,長期的整合性を有する高品質オーディオ生成フレームワークであるAudioLMを紹介する。
本稿では,既存の音声トークンが,再建品質と長期構造との間に異なるトレードオフをもたらすことを示す。
我々は,コヒーレントピアノ音楽の継続を生成することによって,我々のアプローチが音声を超えてどのように拡張されるかを実証する。
論文 参考訳(メタデータ) (2022-09-07T13:40:08Z) - Neural Granular Sound Synthesis [53.828476137089325]
グラニュラー音声合成は、小さな波形ウィンドウの並べ替え配列に基づく一般的な音声生成技術である。
生成ニューラルネットワークは、その欠点の大部分を緩和しつつ、粒状合成を実現することができることを示す。
論文 参考訳(メタデータ) (2020-08-04T08:08:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。