Fugu-MT 論文翻訳(概要): Sound Design Strategies for Latent Audio Space Explorations Using Deep Learning Architectures

論文の概要: Sound Design Strategies for Latent Audio Space Explorations Using Deep Learning Architectures

arxiv url: http://arxiv.org/abs/2305.15571v1
Date: Wed, 24 May 2023 21:08:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-26 18:29:55.045979
Title: Sound Design Strategies for Latent Audio Space Explorations Using Deep Learning Architectures
Title（参考訳）: ディープラーニングアーキテクチャを用いた潜在音声空間探索のための音響設計戦略
Authors: K{\i}van\c{c} Tatar, Kelsey Cotton, Daniel Bisig
Abstract要約: 変分オートエンコーダ(VAE)と呼ばれるよく知られたディープラーニングアーキテクチャを探索する。 VAEは、記号音楽を除いて、潜時音色空間や潜時音色空間を生成するために使われてきた。本研究では,VAEを生音声データに直接適用し,音声特徴抽出をバイパスする。
参考スコア（独自算出の注目度）: 1.6114012813668934
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The research in Deep Learning applications in sound and music computing have gathered an interest in the recent years; however, there is still a missing link between these new technologies and on how they can be incorporated into real-world artistic practices. In this work, we explore a well-known Deep Learning architecture called Variational Autoencoders (VAEs). These architectures have been used in many areas for generating latent spaces where data points are organized so that similar data points locate closer to each other. Previously, VAEs have been used for generating latent timbre spaces or latent spaces of symbolic music excepts. Applying VAE to audio features of timbre requires a vocoder to transform the timbre generated by the network to an audio signal, which is computationally expensive. In this work, we apply VAEs to raw audio data directly while bypassing audio feature extraction. This approach allows the practitioners to use any audio recording while giving flexibility and control over the aesthetics through dataset curation. The lower computation time in audio signal generation allows the raw audio approach to be incorporated into real-time applications. In this work, we propose three strategies to explore latent spaces of audio and timbre for sound design applications. By doing so, our aim is to initiate a conversation on artistic approaches and strategies to utilize latent audio spaces in sound and music practices.
Abstract（参考訳）: 音と音楽のコンピューティングにおけるディープラーニングの応用に関する研究は近年関心を集めているが、これらの新技術と実際の芸術的実践にどのように組み込むかには、いまだに無関係である。本研究では,変分オートエンコーダ(VAE)と呼ばれる,よく知られたディープラーニングアーキテクチャについて検討する。これらのアーキテクチャは、類似したデータポイントが互いに近接するように、データポイントを整理した潜在空間を生成するために、多くの領域で使用されている。以前は、VAEはシンボリック音楽以外のラテント音色空間やラテント音色空間を生成するために用いられてきた。音色の特徴にvaeを適用するには、ネットワークが生成する音色を計算コストの高い音声信号に変換するvocoderが必要である。本研究では,VAEを生音声データに直接適用し,音声特徴抽出をバイパスする。このアプローチにより、実践者はデータセットのキュレーションを通じて美学の柔軟性とコントロールを提供しながら、オーディオ記録を使用できるようになる。音声信号生成における計算時間の短縮により、生オーディオアプローチをリアルタイムアプリケーションに組み込むことができる。そこで本研究では,音響設計のための潜時空間と音色を探索する3つの手法を提案する。そこで,我々は,潜伏音空間を音響や音楽の練習に活用するための,芸術的アプローチと戦略について対話することを目的としている。

関連論文リスト

SpA2V: Harnessing Spatial Auditory Cues for Audio-driven Spatially-aware Video Generation [50.03810359300705]
SpA2Vは、生成プロセスをオーディオ誘導ビデオ計画とレイアウト接地ビデオ生成の2つの段階に分解する。入力音声に意味的・空間的アライメントを持たせた実写映像の制作において,SpA2Vが優れていることを示す。
論文参考訳（メタデータ） (2025-08-01T17:05:04Z)
Bridging the Gap Between Semantic and User Preference Spaces for Multi-modal Music Representation Learning [10.558648773612191]
本稿では,意味的視点からユーザ視点への類似性を階層的にモデル化する新しい階層型2段階コントラスト学習法を提案する。拡張性のあるオーディオエンコーダを考案し,テキストエンコーダとして事前学習されたBERTモデルを活用して,大規模コントラスト付き事前学習による音声テキストセマンティクスの学習を行う。
論文参考訳（メタデータ） (2025-05-29T09:50:07Z)
SoundSignature: What Type of Music Do You Like? [0.0]
SoundSignatureは、ユーザーのお気に入りの曲を分析するためにカスタムのOpenAIアシスタントを統合する音楽アプリケーションである。このシステムには最先端の音楽情報検索(MIR)Pythonパッケージが組み込まれており、抽出された音響的・音楽的特徴と、アシスタントのアーティストやバンドに関する広範な知識を組み合わせている。
論文参考訳（メタデータ） (2024-10-04T12:40:45Z)
SOAF: Scene Occlusion-aware Neural Acoustic Field [9.651041527067907]
そこで我々は,Scene Occlusion-aware Acoustic Field (SOAF) と呼ばれる新しい手法を提案する。提案手法は,距離対応パラメトリック音波伝搬モデルを用いた音場に先行する手法である。そこで我々は、Fibonacci Sphereを用いて、受信機を中心にした局所音場から特徴を抽出し、新しい視聴のための音声を生成する。
論文参考訳（メタデータ） (2024-07-02T13:40:56Z)
AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。 AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文参考訳（メタデータ） (2024-06-13T08:34:12Z)
Audio-Visual Spatial Integration and Recursive Attention for Robust Sound Source Localization [13.278494654137138]
人間は、音源を見つけるための空間的手がかりとして、オーディオと視覚の両方のモダリティを利用する。両モードの空間的手がかりを統合した音声・視覚空間統合ネットワークを提案する。提案手法はより堅牢な音源定位を実現する。
論文参考訳（メタデータ） (2023-08-11T11:57:58Z)
AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文参考訳（メタデータ） (2023-02-04T04:17:19Z)
LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文参考訳（メタデータ） (2022-11-20T15:27:55Z)
AudioLM: a Language Modeling Approach to Audio Generation [59.19364975706805]
本稿では,長期的整合性を有する高品質オーディオ生成フレームワークであるAudioLMを紹介する。本稿では,既存の音声トークンが,再建品質と長期構造との間に異なるトレードオフをもたらすことを示す。我々は,コヒーレントピアノ音楽の継続を生成することによって,我々のアプローチが音声を超えてどのように拡張されるかを実証する。
論文参考訳（メタデータ） (2022-09-07T13:40:08Z)
Visual Acoustic Matching [92.91522122739845]
本稿では,音声クリップがターゲット環境に録音されたような音に変換される視覚的音響マッチングタスクを提案する。対象の環境の画像とソースオーディオの波形が与えられた場合、その視覚的幾何学や材料によって示唆されるように、ターゲットの部屋の音響と一致するように、オーディオを再合成することが目的である。
論文参考訳（メタデータ） (2022-02-14T17:05:22Z)
Geometry-Aware Multi-Task Learning for Binaural Audio Generation from Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文参考訳（メタデータ） (2021-11-21T19:26:45Z)
Artificially Synthesising Data for Audio Classification and Segmentation to Improve Speech and Music Detection in Radio Broadcast [0.0]
無線信号に類似したデータを人工的に合成する新しい手順を提案する。この合成データに対して畳み込み型リカレントニューラルネットワーク(crnn)を訓練し,音楽音声検出のための最先端アルゴリズムと比較した。
論文参考訳（メタデータ） (2021-02-19T14:47:05Z)
Unsupervised Learning of Audio Perception for Robotics Applications: Learning to Project Data to T-SNE/UMAP space [2.8935588665357077]
本論文は,接地構造データにアクセスすることなく,触覚の知覚を構築するための重要なアイデアを基礎にしている。我々は、古典的な信号処理のアイデアを活用して、高い精度で興味のある音の大量のデータを得る方法を示す。
論文参考訳（メタデータ） (2020-02-10T20:33:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。