論文の概要: 3D Convolutional Neural Networks for Ultrasound-Based Silent Speech
Interfaces
- arxiv url: http://arxiv.org/abs/2104.11532v1
- Date: Fri, 23 Apr 2021 10:56:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 13:00:31.142792
- Title: 3D Convolutional Neural Networks for Ultrasound-Based Silent Speech
Interfaces
- Title(参考訳): 超音波によるサイレント音声インタフェースのための3次元畳み込みニューラルネットワーク
- Authors: L\'aszl\'o T\'oth, Amin Honarmandi Shandiz
- Abstract要約: silent speech interface (ssi) は、舌の超音波映像のような調音運動の記録から音声信号を再構成することを目的としている。
ディープニューラルネットワークはこのタスクで最も成功した技術です。
これの1つのオプションは、2D畳み込みニューラルネットワーク(CNNs)と組み合わせて、長期記憶ネットワーク(LSTM)などの繰り返し神経構造を適用することです。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Silent speech interfaces (SSI) aim to reconstruct the speech signal from a
recording of the articulatory movement, such as an ultrasound video of the
tongue. Currently, deep neural networks are the most successful technology for
this task. The efficient solution requires methods that do not simply process
single images, but are able to extract the tongue movement information from a
sequence of video frames. One option for this is to apply recurrent neural
structures such as the long short-term memory network (LSTM) in combination
with 2D convolutional neural networks (CNNs). Here, we experiment with another
approach that extends the CNN to perform 3D convolution, where the extra
dimension corresponds to time. In particular, we apply the spatial and temporal
convolutions in a decomposed form, which proved very successful recently in
video action recognition. We find experimentally that our 3D network
outperforms the CNN+LSTM model, indicating that 3D CNNs may be a feasible
alternative to CNN+LSTM networks in SSI systems.
- Abstract(参考訳): silent speech interface (ssi) は、舌の超音波映像のような調音運動の記録から音声信号を再構成することを目的としている。
現在、ディープニューラルネットワークはこのタスクで最も成功した技術である。
この効率的なソリューションでは、単一の画像を処理するだけでなく、複数のビデオフレームから舌の動き情報を抽出できる方法が必要となる。
この方法の1つの選択肢は、long short-term memory network (lstm) のようなリカレントニューラルネットワークと2d convolutional neural networks (cnns) を組み合わせることである。
ここでは、CNNを拡張して3次元畳み込みを行い、余剰次元が時間に対応する別のアプローチを実験する。
特に,空間的および時間的畳み込みを分解形に適用し,近年の映像行動認識において非常に成功した。
我々の3DネットワークはCNN+LSTMモデルよりも優れており、3D CNNがSSIシステムにおけるCNN+LSTMネットワークの代替となる可能性を示している。
関連論文リスト
- Maximizing Spatio-Temporal Entropy of Deep 3D CNNs for Efficient Video
Recognition [25.364148451584356]
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識において一般的な選択肢である。
我々は,新しい学習自由なニューラルアーキテクチャ探索手法を用いて,効率的な3次元CNNアーキテクチャを自動設計することを提案する。
Something-Something V1&V2 と Kinetics400 の実験は、E3D ファミリーが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-03-05T15:11:53Z) - Continual 3D Convolutional Neural Networks for Real-time Processing of
Videos [93.73198973454944]
連続3次元コンテンポラルニューラルネットワーク(Co3D CNN)について紹介する。
Co3D CNNはクリップ・バイ・クリップではなく、フレーム・バイ・フレームで動画を処理する。
本研究では,既存の映像認識モデルの重みを初期化したCo3D CNNを用いて,フレームワイズ計算における浮動小数点演算を10.0-12.4倍削減し,Kinetics-400の精度を2.3-3.8倍に向上したことを示す。
論文 参考訳(メタデータ) (2021-05-31T18:30:52Z) - MoViNets: Mobile Video Networks for Efficient Video Recognition [52.49314494202433]
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識では正確だが、大きな計算とメモリ予算を必要とする。
本稿では,3次元CNNのピークメモリ使用量を大幅に削減しつつ,計算効率を向上させる3段階の手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T23:06:38Z) - Learning Hybrid Representations for Automatic 3D Vessel Centerline
Extraction [57.74609918453932]
3次元医用画像からの血管の自動抽出は血管疾患の診断に不可欠である。
既存の方法では、3次元画像からそのような細い管状構造を分割する際に、抽出された容器の不連続に悩まされることがある。
抽出された船舶の連続性を維持するためには、地球的幾何学を考慮に入れる必要があると論じる。
この課題を解決するためのハイブリッド表現学習手法を提案します。
論文 参考訳(メタデータ) (2020-12-14T05:22:49Z) - 3D CNNs with Adaptive Temporal Feature Resolutions [83.43776851586351]
similarity Guided Sampling (SGS)モジュールは既存のCNNアーキテクチャにプラグインできる。
SGSは、時間的特徴の類似性を学び、類似した特徴をまとめることで、3D CNNに権限を与える。
評価の結果,提案モジュールは精度を保ちながら計算コスト(GFLOP)を半分に減らし,最先端化を実現していることがわかった。
論文 参考訳(メタデータ) (2020-11-17T14:34:05Z) - Efficient Arabic emotion recognition using deep neural networks [21.379338888447602]
音声信号からの感情認識の問題に対処するために,2つのニューラルアーキテクチャを実装した。
1つは注意に基づくCNN-LSTM-DNNモデル、もう1つは深層CNNモデルである。
アラビア語音声の感情認識タスクの結果から,我々の革新的なアプローチが大きな改善をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-31T19:39:37Z) - Human Activity Recognition using Multi-Head CNN followed by LSTM [1.8830374973687412]
本研究では,CNNとLSTMを用いた新しい身体活動認識法を提案する。
提案手法を用いて,従来の機械学習アルゴリズムや他のディープニューラルネットワークアルゴリズムに匹敵する最先端の精度を実現する。
論文 参考訳(メタデータ) (2020-02-21T14:29:59Z) - V4D:4D Convolutional Neural Networks for Video-level Representation
Learning [58.548331848942865]
映像表現学習用3D CNNの多くはクリップベースであるため,映像時間進化は考慮していない。
4D畳み込みを伴う長距離表現をモデル化するために,ビデオレベル4Dコナールニューラルネットワーク(V4D)を提案する。
V4Dは、最近の3D CNNよりも大きなマージンで優れた結果を得る。
論文 参考訳(メタデータ) (2020-02-18T09:27:41Z) - An Information-rich Sampling Technique over Spatio-Temporal CNN for
Classification of Human Actions in Videos [5.414308305392762]
本稿では,3次元畳み込みニューラルネットワーク(3D CNN)を用いたビデオにおける人間の行動認識手法を提案する。
本稿では,3次元CNNアーキテクチャを用いて特徴量抽出を行い,人間の行動を認識するためのLong Short-Term Memory (LSTM) について述べる。
KTHとWEIZMANNの人間の行動データセットを用いて実験を行い、最先端技術と同等の結果が得られることを示した。
論文 参考訳(メタデータ) (2020-02-06T05:07:41Z) - PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection [76.30585706811993]
我々はPointVoxel-RCNN(PV-RCNN)という新しい高性能な3Dオブジェクト検出フレームワークを提案する。
提案手法は3次元ボクセル畳み込みニューラルネットワーク(CNN)とPointNetベースの集合抽象化の両方を深く統合する。
3DボクセルCNNの効率的な学習と高品質な提案と、PointNetベースのネットワークのフレキシブル・レセプティブ・フィールドを利用する。
論文 参考訳(メタデータ) (2019-12-31T06:34:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。