論文の概要: Hypernetworks build Implicit Neural Representations of Sounds
- arxiv url: http://arxiv.org/abs/2302.04959v3
- Date: Sat, 17 Jun 2023 09:41:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 03:50:01.846683
- Title: Hypernetworks build Implicit Neural Representations of Sounds
- Title(参考訳): ハイパーネットワークは音の暗黙的な神経表現を構築する
- Authors: Filip Szatkowski, Karol J. Piczak, Przemys{\l}aw Spurek, Jacek Tabor,
Tomasz Trzci\'nski
- Abstract要約: Inlicit Neural Representation (INR)は、画像の超解像、画像圧縮、あるいは3Dレンダリングなど、様々なリアルタイムアプリケーションにおけるマルチメディア信号の表現に使われている。
INRを利用する既存の方法は、画像ベースのINRモデルのアーキテクチャ特性に現れる帰納的バイアスのため、主に視覚データに焦点を絞っている。
我々は、ハイパーネットワークを活用して、トレーニング中に観察されたサンプルを超えて一般化する、オーディオサンプルのためのINRを生成する最初のメタ学習アプローチであるHyperSoundを紹介した。
我々のアプローチは、他の状態に匹敵する品質でオーディオサンプルを再構成する
- 参考スコア(独自算出の注目度): 18.28957270390735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Implicit Neural Representations (INRs) are nowadays used to represent
multimedia signals across various real-life applications, including image
super-resolution, image compression, or 3D rendering. Existing methods that
leverage INRs are predominantly focused on visual data, as their application to
other modalities, such as audio, is nontrivial due to the inductive biases
present in architectural attributes of image-based INR models. To address this
limitation, we introduce HyperSound, the first meta-learning approach to
produce INRs for audio samples that leverages hypernetworks to generalize
beyond samples observed in training. Our approach reconstructs audio samples
with quality comparable to other state-of-the-art models and provides a viable
alternative to contemporary sound representations used in deep neural networks
for audio processing, such as spectrograms.
- Abstract(参考訳): Inlicit Neural Representation (INR)は、画像の超解像、画像圧縮、あるいは3Dレンダリングなど、様々なリアルタイムアプリケーションにおけるマルチメディア信号の表現に使われている。
inrを利用する既存の手法は主に視覚データに焦点を当てており、画像ベースのinrモデルのアーキテクチャ属性に存在する帰納的バイアスのため、オーディオなどの他のモダリティへの応用は非自明である。
この制限に対処するために,ハイパーネットワークを活用したオーディオサンプルのためのINRを生成する最初のメタ学習手法であるHyperSoundを紹介した。
本手法は他の最先端モデルに匹敵する品質でオーディオサンプルを再構成し、スペクトログラムなどの深層ニューラルネットワークで使用される現代音声表現の代替手段を提供する。
関連論文リスト
- AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Siamese SIREN: Audio Compression with Implicit Neural Representations [10.482805367361818]
Inlicit Neural Representations (INR) は多様なデータモダリティを表現するための有望な方法として登場した。
音声圧縮におけるINRの使用について予備検討する。
本研究は,SIRENアーキテクチャをベースとした新しいアプローチであるSiamese SIRENを紹介する。
論文 参考訳(メタデータ) (2023-06-22T15:16:06Z) - Audio-Visual Speech Separation in Noisy Environments with a Lightweight
Iterative Model [35.171785986428425]
雑音環境下での音声・視覚音声分離を行うために,AVLIT(Audio-Visual Lightweight ITerative Model)を提案する。
我々のアーキテクチャは、オーディオブランチとビデオブランチで構成されており、各モードの重みを共有する反復的なA-FRCNNブロックがある。
実験は、様々な音声のみのベースラインと音声視覚のベースラインに対して、両方の設定において、我々のモデルが優れていることを示す。
論文 参考訳(メタデータ) (2023-05-31T20:09:50Z) - AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - Modality-Agnostic Variational Compression of Implicit Neural
Representations [96.35492043867104]
Inlicit Neural Representation (INR) としてパラメータ化されたデータの関数的ビューに基づくモーダリティ非依存型ニューラル圧縮アルゴリズムを提案する。
潜時符号化と疎性の間のギャップを埋めて、ソフトゲーティング機構に非直線的にマッピングされたコンパクト潜時表現を得る。
このような潜在表現のデータセットを得た後、ニューラル圧縮を用いてモーダリティ非依存空間におけるレート/歪みトレードオフを直接最適化する。
論文 参考訳(メタデータ) (2023-01-23T15:22:42Z) - HyperSound: Generating Implicit Neural Representations of Audio Signals
with Hypernetworks [23.390919506056502]
Inlicit Neural representations (INR) は急速に成長する研究分野であり、マルチメディア信号の代替手段を提供する。
本稿では,ハイパーネットを利用したメタ学習手法であるHyperSoundを提案する。
提案手法は,他の最先端モデルに匹敵する品質で音波を再構成できることを示す。
論文 参考訳(メタデータ) (2022-11-03T14:20:32Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - Multi-modal Residual Perceptron Network for Audio-Video Emotion
Recognition [0.22843885788439797]
ノイズを低減した深い特徴表現を生成するマルチモーダルネットワークブランチから学習するマルチモーダル残留パーセプトロンネットワーク(MRPN)を提案する。
提案したMPPNモデルとストリーミングデジタル映画の新たな時間拡張のために、最先端の平均認識率は91.4%に向上した。
論文 参考訳(メタデータ) (2021-07-21T13:11:37Z) - Adaptive Gradient Balancing for UndersampledMRI Reconstruction and
Image-to-Image Translation [60.663499381212425]
本研究では,新しい適応勾配バランス手法を併用したwasserstein生成逆ネットワークを用いて,画質の向上を図る。
MRIでは、他の技術よりも鮮明な画像を生成する高品質の再構築を維持しながら、アーティファクトを最小限に抑えます。
論文 参考訳(メタデータ) (2021-04-05T13:05:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。