論文の概要: BatVision with GCC-PHAT Features for Better Sound to Vision Predictions
- arxiv url: http://arxiv.org/abs/2006.07995v1
- Date: Sun, 14 Jun 2020 19:49:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 13:41:58.189908
- Title: BatVision with GCC-PHAT Features for Better Sound to Vision Predictions
- Title(参考訳): 聴覚と視覚の予測を改善するgcc-phat機能を備えたbatvision
- Authors: Jesper Haahr Christensen, Sascha Hornauer, Stella Yu
- Abstract要約: 我々は,音から可塑性深度マップとグレースケールレイアウトを予測するために,生成的対向ネットワークを訓練する。
我々は、サウンド・ツー・ビジョン・モデルと自己収集されたデータセットからなるBatVisionを使った以前の研究に基づいて構築する。
- 参考スコア(独自算出の注目度): 5.9514420658483935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by sophisticated echolocation abilities found in nature, we train a
generative adversarial network to predict plausible depth maps and grayscale
layouts from sound. To achieve this, our sound-to-vision model processes
binaural echo-returns from chirping sounds. We build upon previous work with
BatVision that consists of a sound-to-vision model and a self-collected dataset
using our mobile robot and low-cost hardware. We improve on the previous model
by introducing several changes to the model, which leads to a better depth and
grayscale estimation, and increased perceptual quality. Rather than using raw
binaural waveforms as input, we generate generalized cross-correlation (GCC)
features and use these as input instead. In addition, we change the model
generator and base it on residual learning and use spectral normalization in
the discriminator. We compare and present both quantitative and qualitative
improvements over our previous BatVision model.
- Abstract(参考訳): 自然界で見られる洗練されたエコーロケーション能力にインスパイアされ、生成する対向ネットワークを訓練し、音から可視深度マップとグレースケールレイアウトを予測する。
そこで本研究では,バイノーラルエコーをチャープ音から処理する。
われわれのモバイルロボットと低コストのハードウェアを使って、サウンド・ツー・ビジョンモデルと自己収集したデータセットで構成されるbatvisionの以前の作業に基づいて構築した。
モデルにいくつかの変更を導入することで,先行モデルの改良を行い,奥行き,グレースケール推定,知覚品質の向上を実現した。
生のバイノーラル波形を入力として使用するのではなく、一般化された相互相関(GCC)特性を生成し、代わりに入力として使用する。
さらに,モデル生成器を変更し,残差学習をベースとし,判別器のスペクトル正規化を用いる。
従来のBatVisionモデルと比較し,定量的および定性的な改善を行った。
関連論文リスト
- B-cosification: Transforming Deep Neural Networks to be Inherently Interpretable [53.848005910548565]
B-コシフィケーション(B-cosification)は、既存の訓練済みモデルを本質的に解釈可能なものにするための新しいアプローチである。
B-コシフィケーションは、解釈可能性の観点から、スクラッチから訓練されたB-コシフィケーションモデルに匹敵するモデルが得られる。
論文 参考訳(メタデータ) (2024-11-01T16:28:11Z) - Deepfake Audio Detection Using Spectrogram-based Feature and Ensemble of Deep Learning Models [42.39774323584976]
本稿では,ディープフェイク音声検出作業のためのディープラーニングベースシステムを提案する。
特に、ドロー入力オーディオは、まず様々なスペクトログラムに変換される。
我々は、Whisper、Seamless、Speechbrain、Pyannoteといった最先端のオーディオ事前訓練モデルを利用して、オーディオ埋め込みを抽出する。
論文 参考訳(メタデータ) (2024-07-01T20:10:43Z) - Neural Residual Diffusion Models for Deep Scalable Vision Generation [17.931568104324985]
我々は,統一的かつ大規模に拡張可能なニューラルネットワーク残差拡散モデルフレームワーク(Neural-RDM)を提案する。
提案したニューラル残差モデルは、画像およびビデオ生成ベンチマークの最先端スコアを取得する。
論文 参考訳(メタデータ) (2024-06-19T04:57:18Z) - Variational Positive-incentive Noise: How Noise Benefits Models [84.67629229767047]
正感雑音(Pi-Noise)の枠組みに基づくランダムノイズによる古典モデルの利点について検討する。
Pi-Noiseの理想的目的は難易度が高いため,その代わりに変分境界,すなわち変分Pi-Noise(VPN)を最適化することを提案する。
論文 参考訳(メタデータ) (2023-06-13T09:43:32Z) - Audio-visual speech enhancement with a deep Kalman filter generative
model [0.0]
本稿では,潜伏変数に対するマルコフ連鎖モデルを想定したオーディオビジュアルディープカルマンフィルタ(AV-DKF)生成モデルを提案する。
テスト時に音声信号を推定する効率的な推論手法を開発した。
論文 参考訳(メタデータ) (2022-11-02T09:50:08Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Switching Variational Auto-Encoders for Noise-Agnostic Audio-visual
Speech Enhancement [26.596930749375474]
本稿では,異なるVAEアーキテクチャを時間的に切り換えるために,マルコフの依存関係を持つ潜在逐次変数を導入する。
モデルのパラメータを推定し、音声信号を強化するために、対応する変動予測-最大化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-02-08T11:45:02Z) - Anomaly Detection of Time Series with Smoothness-Inducing Sequential
Variational Auto-Encoder [59.69303945834122]
Smoothness-Inducing Sequential Variational Auto-Encoder (SISVAE) モデルを提案する。
我々のモデルは、フレキシブルニューラルネットワークを用いて各タイムスタンプの平均と分散をパラメータ化する。
合成データセットと公開実世界のベンチマークの両方において,本モデルの有効性を示す。
論文 参考訳(メタデータ) (2021-02-02T06:15:15Z) - Neural PLDA Modeling for End-to-End Speaker Verification [40.842070706362534]
ニューラルPLDA(NPLDA)と呼ばれる話者検証におけるバックエンドモデリングのためのニューラルネットワークアプローチを提案する。
本稿では,NPLDAネットワークと組込みニューラルネットワーク(xベクトルネットワーク)をエンドツーエンドで共同最適化するために,本研究を拡張した。
提案したE2Eモデルは,xベクトルPLDAベースライン話者検証システムよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-08-11T05:54:54Z) - TERA: Self-Supervised Learning of Transformer Encoder Representation for
Speech [63.03318307254081]
TERA は Transformer Representations from Alteration の略である。
我々は3つの軸に沿った変形を用いて、大量のラベルなし音声でトランスフォーマーを事前訓練する。
TERAは、音声表現の抽出や下流モデルによる微調整に使用することができる。
論文 参考訳(メタデータ) (2020-07-12T16:19:00Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。