論文の概要: GACELA -- A generative adversarial context encoder for long audio
inpainting
- arxiv url: http://arxiv.org/abs/2005.05032v1
- Date: Mon, 11 May 2020 12:17:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-04 20:46:44.527802
- Title: GACELA -- A generative adversarial context encoder for long audio
inpainting
- Title(参考訳): GACELA -- ロングオーディオインペイントのための生成逆コンテキストエンコーダ
- Authors: Andres Marafioti, Piotr Majdak, Nicki Holighaus, Nathana\"el Perraudin
- Abstract要約: GACELAは、数百ミリ秒から数秒の間、欠落したオーディオデータを復元するために設計された、GAN(generative adversarial network)である。
- 参考スコア(独自算出の注目度): 1.7205106391379026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce GACELA, a generative adversarial network (GAN) designed to
restore missing musical audio data with a duration ranging between hundreds of
milliseconds to a few seconds, i.e., to perform long-gap audio inpainting.
While previous work either addressed shorter gaps or relied on exemplars by
copying available information from other signal parts, GACELA addresses the
inpainting of long gaps in two aspects. First, it considers various time scales
of audio information by relying on five parallel discriminators with increasing
resolution of receptive fields. Second, it is conditioned not only on the
available information surrounding the gap, i.e., the context, but also on the
latent variable of the conditional GAN. This addresses the inherent
multi-modality of audio inpainting at such long gaps and provides the option of
user-defined inpainting. GACELA was tested in listening tests on music signals
of varying complexity and gap durations ranging from 375~ms to 1500~ms. While
our subjects were often able to detect the inpaintings, the severity of the
artifacts decreased from unacceptable to mildly disturbing. GACELA represents a
framework capable to integrate future improvements such as processing of more
auditory-related features or more explicit musical features.
- Abstract(参考訳): gacela(generative adversarial network, gan)は、数百ミリ秒から数秒の間隔で音楽データの欠落を復元し、長ギャップのオーディオインペインティングを行うためのネットワークである。
以前の研究は、短いギャップに対処するか、他の信号部分から利用可能な情報をコピーすることで、模範に頼っていた。
まず,受容野の分解能が増大する5つの並列判別器を頼りに,音声情報の様々な時間尺度を考える。
第2に、ギャップを取り巻く利用可能な情報、すなわちコンテキストだけでなく、条件付きGANの潜時変数にも条件付けされる。
これは、このような長いギャップにおいて、オーディオのマルチモーダル性に対処し、ユーザ定義のインペイントオプションを提供する。
GACELAは375〜msから1500〜msまでの様々な複雑さとギャップ期間の音楽信号の聴取試験を行った。
被検者はしばしば塗抹を検出できたが, 被検物の重症度は, 容認不能から軽度に低下した。
GACELAは、より聴覚に関連した機能やより明示的な音楽機能などの将来の改善を統合することができるフレームワークである。
関連論文リスト
- CoLLAP: Contrastive Long-form Language-Audio Pretraining with Musical Temporal Structure Augmentation [17.41880273107978]
Contrastive Long-form Language-Audio Pretraining (textbfCoLLAP)
入力音声(最大5分)と言語記述(250語)の認識窓を著しく拡張するコントラストロングフォーム言語事前学習(textbfCoLLAP)を提案する。
大規模なAudioSetトレーニングデータセットから51.3Kのオーディオテキストペアを収集し,平均オーディオ長が288秒に達する。
論文 参考訳(メタデータ) (2024-10-03T07:46:51Z) - TIM: A Time Interval Machine for Audio-Visual Action Recognition [64.24297230981168]
音声と視覚イベントの時間的範囲を明示的にモデル化することで、長いビデオにおける2つのモード間の相互作用に対処する。
本稿では,TIM (Time Interval Machine) を提案する。
我々は、EPIC-KITCHENS、Perception Test、AVEの3つの長い音声視覚ビデオデータセットでTIMをテストする。
論文 参考訳(メタデータ) (2024-04-08T14:30:42Z) - Qwen-Audio: Advancing Universal Audio Understanding via Unified
Large-Scale Audio-Language Models [98.34889301515412]
我々はQwen-Audioモデルを開発し、30以上のタスクと様々なオーディオタイプをカバーするために、事前学習を拡大することで制限に対処する。
Qwen-Audioは、タスク固有の微調整を必要とせずに、様々なベンチマークタスクで素晴らしいパフォーマンスを実現している。
さらにQwen-Audio-Chatを開発し、様々なオーディオやテキスト入力からの入力を可能にし、マルチターン対話を可能にし、様々なオーディオ中心のシナリオをサポートする。
論文 参考訳(メタデータ) (2023-11-14T05:34:50Z) - Make-An-Audio 2: Temporal-Enhanced Text-to-Audio Generation [72.7915031238824]
大規模な拡散モデルは、テキスト・トゥ・オーディオ(T2A)合成タスクで成功している。
意味的不一致や時間的一貫性の低下といった共通の問題に悩まされることが多い。
我々は,Make-an-Audioの成功に基づいて,潜伏拡散に基づくT2A法であるMake-an-Audio 2を提案する。
論文 参考訳(メタデータ) (2023-05-29T10:41:28Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Learning Spatial-Temporal Graphs for Active Speaker Detection [26.45877018368872]
SPELLは、長距離マルチモーダルグラフを学習し、オーディオと視覚データ間のモーダル関係を符号化するフレームワークである。
まず、各ノードが1人に対応するように、ビデオからグラフを構築する。
グラフに基づく表現の学習は,その空間的・時間的構造から,全体の性能を著しく向上させることを示した。
論文 参考訳(メタデータ) (2021-12-02T18:29:07Z) - Audio Spectral Enhancement: Leveraging Autoencoders for Low Latency
Reconstruction of Long, Lossy Audio Sequences [0.0]
本稿では,低品質MP3音声波の長いシーケンスから高周波数を再構成するための新しい手法を提案する。
本アーキテクチャは,スキップ接続による音声波のスペクトル構造を保ちながら,いくつかのボトルネックを生じさせる。
差分量子化手法を用いて初期モデルのサイズを半減し、同時に推論時間を短縮する方法を示す。
論文 参考訳(メタデータ) (2021-08-08T18:06:21Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z) - Multi-view Temporal Alignment for Non-parallel Articulatory-to-Acoustic
Speech Synthesis [59.623780036359655]
A2A(Articulatory-to-Aoustic)合成は、音声刺激器のキャプチャされた動きから可聴音声の生成を指します。
この手法には、病気や怪我のためにもはや話せない人々への口頭コミュニケーションの回復など、多くの応用がある。
本稿では,多視点学習の理論に基づく問題解決法を提案する。
論文 参考訳(メタデータ) (2020-12-30T15:09:02Z) - Audio-Visual Speech Inpainting with Deep Learning [30.59696039318939]
音声信号に100msから1600msの間隔を印字し、視覚が異なる期間のギャップにもたらす貢献について検討した。
以上の結果から,音声のみの音声塗装手法の性能は,差が大きくなると急速に低下することがわかった。
マルチタスク学習が効果的であることは示していますが、パフォーマンスへの最大の貢献はビジョンによるものです。
論文 参考訳(メタデータ) (2020-10-09T13:23:01Z) - Face-to-Music Translation Using a Distance-Preserving Generative
Adversarial Network with an Auxiliary Discriminator [5.478764356647437]
本稿では,人間の顔の画像を音声領域に翻訳するための距離保存型生成逆変換モデルを提案する。
オーディオドメインは、10の異なる楽器ファミリーによって記録された音符の集合によって定義される。
距離保存を実施するために、顔の対距離と翻訳された音声サンプルとの差を罰する損失項を用いる。
論文 参考訳(メタデータ) (2020-06-24T04:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。