論文の概要: BatVision with GCC-PHAT Features for Better Sound to Vision Predictions
- arxiv url: http://arxiv.org/abs/2006.07995v1
- Date: Sun, 14 Jun 2020 19:49:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 13:41:58.189908
- Title: BatVision with GCC-PHAT Features for Better Sound to Vision Predictions
- Title(参考訳): 聴覚と視覚の予測を改善するgcc-phat機能を備えたbatvision
- Authors: Jesper Haahr Christensen, Sascha Hornauer, Stella Yu
- Abstract要約: 我々は,音から可塑性深度マップとグレースケールレイアウトを予測するために,生成的対向ネットワークを訓練する。
我々は、サウンド・ツー・ビジョン・モデルと自己収集されたデータセットからなるBatVisionを使った以前の研究に基づいて構築する。
- 参考スコア(独自算出の注目度): 5.9514420658483935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by sophisticated echolocation abilities found in nature, we train a
generative adversarial network to predict plausible depth maps and grayscale
layouts from sound. To achieve this, our sound-to-vision model processes
binaural echo-returns from chirping sounds. We build upon previous work with
BatVision that consists of a sound-to-vision model and a self-collected dataset
using our mobile robot and low-cost hardware. We improve on the previous model
by introducing several changes to the model, which leads to a better depth and
grayscale estimation, and increased perceptual quality. Rather than using raw
binaural waveforms as input, we generate generalized cross-correlation (GCC)
features and use these as input instead. In addition, we change the model
generator and base it on residual learning and use spectral normalization in
the discriminator. We compare and present both quantitative and qualitative
improvements over our previous BatVision model.
- Abstract(参考訳): 自然界で見られる洗練されたエコーロケーション能力にインスパイアされ、生成する対向ネットワークを訓練し、音から可視深度マップとグレースケールレイアウトを予測する。
そこで本研究では,バイノーラルエコーをチャープ音から処理する。
われわれのモバイルロボットと低コストのハードウェアを使って、サウンド・ツー・ビジョンモデルと自己収集したデータセットで構成されるbatvisionの以前の作業に基づいて構築した。
モデルにいくつかの変更を導入することで,先行モデルの改良を行い,奥行き,グレースケール推定,知覚品質の向上を実現した。
生のバイノーラル波形を入力として使用するのではなく、一般化された相互相関(GCC)特性を生成し、代わりに入力として使用する。
さらに,モデル生成器を変更し,残差学習をベースとし,判別器のスペクトル正規化を用いる。
従来のBatVisionモデルと比較し,定量的および定性的な改善を行った。
関連論文リスト
- Variational Positive-incentive Noise: How Noise Benefits Models [84.67629229767047]
正感雑音(Pi-Noise)の枠組みに基づくランダムノイズによる古典モデルの利点について検討する。
Pi-Noiseの理想的目的は難易度が高いため,その代わりに変分境界,すなわち変分Pi-Noise(VPN)を最適化することを提案する。
論文 参考訳(メタデータ) (2023-06-13T09:43:32Z) - NCTV: Neural Clamping Toolkit and Visualization for Neural Network
Calibration [66.22668336495175]
ニューラルネットワークのキャリブレーションに対する考慮の欠如は、人間から信頼を得ることはないだろう。
我々はNeural Clamping Toolkitを紹介した。これは開発者が最先端のモデルに依存しないキャリブレーションモデルを採用するのを支援するために設計された最初のオープンソースフレームワークである。
論文 参考訳(メタデータ) (2022-11-29T15:03:05Z) - Audio-visual speech enhancement with a deep Kalman filter generative
model [0.0]
本稿では,潜伏変数に対するマルコフ連鎖モデルを想定したオーディオビジュアルディープカルマンフィルタ(AV-DKF)生成モデルを提案する。
テスト時に音声信号を推定する効率的な推論手法を開発した。
論文 参考訳(メタデータ) (2022-11-02T09:50:08Z) - BAST: Binaural Audio Spectrogram Transformer for Binaural Sound
Localization [3.5665681694253903]
そこで本研究では,アネコ音と残響音の両環境における音響方位を予測するために,バイノーラル・オーディオ・スペクトログラム・トランスフォーマ(BAST)モデルを提案する。
本モデルでは, 角距離1.29度, 平均角誤差1e-3を全方位で達成する。
論文 参考訳(メタデータ) (2022-07-08T14:27:52Z) - Deep Generative model with Hierarchical Latent Factors for Time Series
Anomaly Detection [40.21502451136054]
本研究は、時系列異常検出のための新しい生成モデルであるDGHLを提示する。
トップダウンの畳み込みネットワークは、新しい階層的な潜在空間を時系列ウィンドウにマッピングし、時間ダイナミクスを利用して情報を効率的にエンコードする。
提案手法は,4つのベンチマーク・データセットにおいて,現在の最先端モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-02-15T17:19:44Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Switching Variational Auto-Encoders for Noise-Agnostic Audio-visual
Speech Enhancement [26.596930749375474]
本稿では,異なるVAEアーキテクチャを時間的に切り換えるために,マルコフの依存関係を持つ潜在逐次変数を導入する。
モデルのパラメータを推定し、音声信号を強化するために、対応する変動予測-最大化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-02-08T11:45:02Z) - Anomaly Detection of Time Series with Smoothness-Inducing Sequential
Variational Auto-Encoder [59.69303945834122]
Smoothness-Inducing Sequential Variational Auto-Encoder (SISVAE) モデルを提案する。
我々のモデルは、フレキシブルニューラルネットワークを用いて各タイムスタンプの平均と分散をパラメータ化する。
合成データセットと公開実世界のベンチマークの両方において,本モデルの有効性を示す。
論文 参考訳(メタデータ) (2021-02-02T06:15:15Z) - Neural PLDA Modeling for End-to-End Speaker Verification [40.842070706362534]
ニューラルPLDA(NPLDA)と呼ばれる話者検証におけるバックエンドモデリングのためのニューラルネットワークアプローチを提案する。
本稿では,NPLDAネットワークと組込みニューラルネットワーク(xベクトルネットワーク)をエンドツーエンドで共同最適化するために,本研究を拡張した。
提案したE2Eモデルは,xベクトルPLDAベースライン話者検証システムよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-08-11T05:54:54Z) - TERA: Self-Supervised Learning of Transformer Encoder Representation for
Speech [63.03318307254081]
TERA は Transformer Representations from Alteration の略である。
我々は3つの軸に沿った変形を用いて、大量のラベルなし音声でトランスフォーマーを事前訓練する。
TERAは、音声表現の抽出や下流モデルによる微調整に使用することができる。
論文 参考訳(メタデータ) (2020-07-12T16:19:00Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。