論文の概要: A Novel mapping for visual to auditory sensory substitution
- arxiv url: http://arxiv.org/abs/2106.07448v1
- Date: Mon, 14 Jun 2021 14:14:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 16:22:49.938601
- Title: A Novel mapping for visual to auditory sensory substitution
- Title(参考訳): 視覚と聴覚の感覚置換のための新しいマッピング
- Authors: Ezsan Mehrbani, Sezedeh Fatemeh Mirhoseini, Noushin Riahi
- Abstract要約: 視覚情報は 感覚置換装置を通じて オーディオストリームに変換できる
実物に対する視覚的物体認識の結果は平均88.05となった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: visual information can be converted into audio stream via sensory
substitution devices in order to give visually impaired people the chance of
perception of their surrounding easily and simultaneous to performing everyday
tasks. In this study, visual environmental features namely, coordinate, type of
objects and their size are assigned to audio features related to music tones
such as frequency, time duration and note permutations. Results demonstrated
that this new method has more training time efficiency in comparison with our
previous method named VBTones which sinusoidal tones were applied. Moreover,
results in blind object recognition for real objects was achieved 88.05 on
average.
- Abstract(参考訳): 視覚情報は感覚置換デバイスを介して音声ストリームに変換でき、視覚障害者が日常の作業に容易に同時に周囲を知覚する機会を与えることができる。
本研究では,視覚環境特性であるコーディネート,物体の種類,大きさを,周波数,持続時間,音符の順列といった音楽音に関する音声特徴に割り当てる。
その結果, 本手法は, 正弦波トーンを応用した従来のVBTones法と比較して, 訓練時間効率が向上した。
さらに,実物に対する視覚的物体認識の結果は平均88.05であった。
関連論文リスト
- The Effect of Perceptual Metrics on Music Representation Learning for Genre Classification [42.14708549155406]
損失関数として知覚メトリクスで訓練されたモデルが知覚的に意味のある特徴を捉えることができることを示す。
知覚的損失で訓練されたオートエンコーダから抽出した特徴を用いることで,音楽理解タスクのパフォーマンスが向上することが実証された。
論文 参考訳(メタデータ) (2024-09-25T16:29:21Z) - Egocentric Audio-Visual Object Localization [51.434212424829525]
本研究では,エゴモーションを明示的に処理する時空間アグリゲーションモジュールを提案する。
エゴモーションの効果は、時間的幾何変換を推定し、それを利用して視覚的表現を更新することによって緩和される。
視覚的に指示された音声表現をアンタングルすることで、モーダルな局所化の堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-03-23T17:43:11Z) - EEG2Mel: Reconstructing Sound from Brain Responses to Music [0.0]
我々は,音楽刺激を独立して認識・識別できるほどよく再構成することで,従来の手法を改善した。
深層学習モデルは脳波記録の1秒ごとの時間順の音楽刺激スペクトルに基づいて訓練された。
85%の成功率(50%の確率)で聴取者の聴覚刺激の再構成を行った。
論文 参考訳(メタデータ) (2022-07-28T01:06:51Z) - Binaural SoundNet: Predicting Semantics, Depth and Motion with Binaural
Sounds [118.54908665440826]
人間は視覚的および/または聴覚的手がかりを用いて、オブジェクトを頑健に認識し、ローカライズすることができる。
この研究は、純粋に音に基づくシーン理解のためのアプローチを開発する。
視覚的および音声的手がかりの共存は、監督伝達に活用される。
論文 参考訳(メタデータ) (2021-09-06T22:24:00Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z) - Audiovisual transfer learning for audio tagging and sound event
detection [21.574781022415372]
本研究では,2つの音声認識問題,すなわち音声タグ付けと音声イベント検出における伝達学習の利点について検討する。
我々は、スペクトル音響入力のみを利用したベースラインシステムを適用し、事前訓練された聴覚と視覚的特徴を利用する。
オーディオヴィジュアルなマルチラベルデータセット上で,これらのモデルを用いて実験を行う。
論文 参考訳(メタデータ) (2021-06-09T21:55:05Z) - Deep Sensory Substitution: Noninvasively Enabling Biological Neural
Networks to Receive Input from Artificial Neural Networks [5.478764356647437]
本研究は,視覚情報を知覚音声領域に音化するために,機械学習機能埋め込みを活用する新しい手法について述べる。
次に、生成逆数ネットワーク(GAN)を用いて、特徴ベクトルのこの距離空間からターゲットオーディオデータセットで定義された距離保存マップを求める。
人間の被験者によるテストでは、ユーザーは顔の音声音化を正確に分類することができた。
論文 参考訳(メタデータ) (2020-05-27T11:41:48Z) - Cross-Task Transfer for Geotagged Audiovisual Aerial Scene Recognition [61.54648991466747]
映像と音を入力として用いた視覚的空中シーン認識タスクについて検討する。
航空シーン認識のための音声情報を活用する利点を示す。
論文 参考訳(メタデータ) (2020-05-18T04:14:16Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z) - Deep Audio-Visual Learning: A Survey [53.487938108404244]
現在の音声・視覚学習タスクを4つのサブフィールドに分割する。
本稿では,各サブフィールドに残る課題だけでなく,最先端の手法についても論じる。
一般的に使用されるデータセットとパフォーマンスメトリクスを要約します。
論文 参考訳(メタデータ) (2020-01-14T13:11:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。