論文の概要: Siamese SIREN: Audio Compression with Implicit Neural Representations
- arxiv url: http://arxiv.org/abs/2306.12957v1
- Date: Thu, 22 Jun 2023 15:16:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 14:06:08.097878
- Title: Siamese SIREN: Audio Compression with Implicit Neural Representations
- Title(参考訳): Siamese SIREN:意図しないニューラル表現による音声圧縮
- Authors: Luca A. Lanzend\"orfer, Roger Wattenhofer
- Abstract要約: Inlicit Neural Representations (INR) は多様なデータモダリティを表現するための有望な方法として登場した。
音声圧縮におけるINRの使用について予備検討する。
本研究は,SIRENアーキテクチャをベースとした新しいアプローチであるSiamese SIRENを紹介する。
- 参考スコア(独自算出の注目度): 10.482805367361818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Implicit Neural Representations (INRs) have emerged as a promising method for
representing diverse data modalities, including 3D shapes, images, and audio.
While recent research has demonstrated successful applications of INRs in image
and 3D shape compression, their potential for audio compression remains largely
unexplored. Motivated by this, we present a preliminary investigation into the
use of INRs for audio compression. Our study introduces Siamese SIREN, a novel
approach based on the popular SIREN architecture. Our experimental results
indicate that Siamese SIREN achieves superior audio reconstruction fidelity
while utilizing fewer network parameters compared to previous INR
architectures.
- Abstract(参考訳): Inlicit Neural Representations (INR)は、3次元形状、画像、オーディオなど、多様なデータモダリティを表現するための有望な方法として登場した。
近年の研究では、画像および3d形状圧縮におけるinrsの応用が実証されているが、オーディオ圧縮の可能性はほとんど未解明である。
そこで本研究では,音声圧縮におけるINRの使用について予備検討する。
本研究は,SIRENアーキテクチャに基づく新しいアプローチであるSiamese SIRENを紹介する。
実験の結果, 従来のINRアーキテクチャと比較して, ネットワークパラメータが少なく, より優れた音響再構成精度が得られた。
関連論文リスト
- Predicting the Encoding Error of SIRENs [4.673285689826945]
Inlicit Neural Representation (INR)は、ニューラルネットワークの重みにおける画像、ビデオ、三次元形状などの信号を符号化する。
本稿では、人気のあるINRネットワーク(SIREN)が到達する符号化エラーを予測する手法を提案する。
論文 参考訳(メタデータ) (2024-10-29T01:19:22Z) - Streaming Neural Images [56.41827271721955]
Inlicit Neural Representations (INR) は信号表現の新しいパラダイムであり、画像圧縮にかなりの関心を集めている。
本研究では,INRの計算コスト,不安定な性能,堅牢性などの限界要因について検討する。
論文 参考訳(メタデータ) (2024-09-25T17:51:20Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Hypernetworks build Implicit Neural Representations of Sounds [18.28957270390735]
Inlicit Neural Representation (INR)は、画像の超解像、画像圧縮、あるいは3Dレンダリングなど、様々なリアルタイムアプリケーションにおけるマルチメディア信号の表現に使われている。
INRを利用する既存の方法は、画像ベースのINRモデルのアーキテクチャ特性に現れる帰納的バイアスのため、主に視覚データに焦点を絞っている。
我々は、ハイパーネットワークを活用して、トレーニング中に観察されたサンプルを超えて一般化する、オーディオサンプルのためのINRを生成する最初のメタ学習アプローチであるHyperSoundを紹介した。
我々のアプローチは、他の状態に匹敵する品質でオーディオサンプルを再構成する
論文 参考訳(メタデータ) (2023-02-09T22:24:26Z) - Modality-Agnostic Variational Compression of Implicit Neural
Representations [96.35492043867104]
Inlicit Neural Representation (INR) としてパラメータ化されたデータの関数的ビューに基づくモーダリティ非依存型ニューラル圧縮アルゴリズムを提案する。
潜時符号化と疎性の間のギャップを埋めて、ソフトゲーティング機構に非直線的にマッピングされたコンパクト潜時表現を得る。
このような潜在表現のデータセットを得た後、ニューラル圧縮を用いてモーダリティ非依存空間におけるレート/歪みトレードオフを直接最適化する。
論文 参考訳(メタデータ) (2023-01-23T15:22:42Z) - HyperSound: Generating Implicit Neural Representations of Audio Signals
with Hypernetworks [23.390919506056502]
Inlicit Neural representations (INR) は急速に成長する研究分野であり、マルチメディア信号の代替手段を提供する。
本稿では,ハイパーネットを利用したメタ学習手法であるHyperSoundを提案する。
提案手法は,他の最先端モデルに匹敵する品質で音波を再構成できることを示す。
論文 参考訳(メタデータ) (2022-11-03T14:20:32Z) - NeurAR: Neural Uncertainty for Autonomous 3D Reconstruction [64.36535692191343]
暗黙の神経表現はオフラインの3D再構成において魅力的な結果を示しており、オンラインSLAMシステムの可能性も最近示している。
本論文は,1)新しい表現に基づく視点計画の質を評価するための基準を求めること,2)手作りではなく,異なる場面に一般化可能なデータから基準を学習すること,の2つの課題に対処する。
本手法は, TSDFを用いた変形モデルやビュープランニングなしでの再構成モデルと比較した場合, レンダリングされた画像品質と再構成された3次元モデルの幾何学的品質について, 様々な指標について有意な改善を示す。
論文 参考訳(メタデータ) (2022-07-22T10:05:36Z) - Practical Blind Image Denoising via Swin-Conv-UNet and Data Synthesis [148.16279746287452]
本研究では,残差畳み込み層の局所モデリング能力とスウィントランスブロックの非局所モデリング能力を組み込むスウィンコンブブロックを提案する。
トレーニングデータ合成のために,異なる種類のノイズを考慮した実用的なノイズ劣化モデルの設計を行う。
AGWN除去と実画像復号化の実験は、新しいネットワークアーキテクチャ設計が最先端の性能を達成することを実証している。
論文 参考訳(メタデータ) (2022-03-24T18:11:31Z) - Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。
量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。
我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文 参考訳(メタデータ) (2021-12-08T13:02:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。