論文の概要: Learning Absolute Sound Source Localisation With Limited Supervisions
- arxiv url: http://arxiv.org/abs/2001.10605v1
- Date: Tue, 28 Jan 2020 21:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 02:42:50.479991
- Title: Learning Absolute Sound Source Localisation With Limited Supervisions
- Title(参考訳): 限られたスーパービジョンによる絶対音源定位学習
- Authors: Yang Chu, Wayne Luk, Dan Goodman
- Abstract要約: 正確な聴覚空間マップは、例えば、発達中や、修正ピンナのような修正された聴覚手がかりに対する応答など、聴覚経験から学習することができる。
我々は,限られた監督基準に基づいて,水平面上の単一音源の局所化を学習するニューラルネットワークモデルについて検討した。
- 参考スコア(独自算出の注目度): 2.745827783449186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An accurate auditory space map can be learned from auditory experience, for
example during development or in response to altered auditory cues such as a
modified pinna. We studied neural network models that learn to localise a
single sound source in the horizontal plane using binaural cues based on
limited supervisions. These supervisions can be unreliable or sparse in real
life. First, a simple model that has unreliable estimation of the sound source
location is built, in order to simulate the unreliable auditory orienting
response of newborns. It is used as a Teacher that acts as a source of
unreliable supervisions. Then we show that it is possible to learn a continuous
auditory space map based only on noisy left or right feedbacks from the
Teacher. Furthermore, reinforcement rewards from the environment are used as a
source of sparse supervision. By combining the unreliable innate response and
the sparse reinforcement rewards, an accurate auditory space map, which is hard
to be achieved by either one of these two kind of supervisions, can eventually
be learned. Our results show that the auditory space mapping can be calibrated
even without explicit supervision. Moreover, this study implies a possibly more
general neural mechanism where multiple sub-modules can be coordinated to
facilitate each other's learning process under limited supervisions.
- Abstract(参考訳): 正確な聴覚空間マップは、例えば発達中や変化したピンナのような聴覚手がかりに反応して聴覚経験から学習することができる。
バイノーラルキューを用いて,1つの音源を水平面にローカライズすることを学習するニューラルネットワークモデルについて検討した。
これらの監督は実生活では信頼できないか疎遠である。
まず、新生児の信頼できない聴覚指向応答をシミュレートするために、音源位置の信頼性の低い簡易モデルを構築した。
教師として使われ、信頼できない監督の源となっている。
そして,教師からの雑音や右からのフィードバックに基づいて,連続的な聴覚空間マップを学習することができることを示す。
さらに、環境からの強化報酬をスパース・インスペクションの源泉として利用する。
信頼できない自然応答とスパース強化報酬を組み合わせることで、これらの2種類の監督者のいずれかによって達成が難しい正確な聴覚空間マップを最終的に学習することができる。
その結果,聴覚空間マッピングは明示的な監督なしにも校正できることがわかった。
さらに本研究は,複数のサブモジュールを協調して相互の学習プロセスを促進する,より汎用的な神経機構を示唆する。
関連論文リスト
- CANDERE-COACH: Reinforcement Learning from Noisy Feedback [12.232688822099325]
CANDERE-COACHアルゴリズムは、非最適教師によるノイズフィードバックから学習することができる。
本稿では,教師のフィードバックの最大40%が誤りであった場合,RLエージェントが学習を成功させるためのノイズフィルタリング機構を提案する。
論文 参考訳(メタデータ) (2024-09-23T20:14:12Z) - Learning to Separate Voices by Spatial Regions [5.483801693991577]
イヤホンや補聴器などの応用における音声分離の問題点を考察する。
比較的クリーンなパーソナライズされた信号を抽出するために、イヤホンからの過剰な音声を前処理する2段階の自己教師型フレームワークを提案する。
結果は、一般的な教師付きアプローチよりもパーソナライズの重要性を強調し、有望なパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-07-09T06:25:01Z) - Modeling the Repetition-based Recovering of Acoustic and Visual Sources
with Dendritic Neurons [5.306881553301636]
自然の聴覚環境において、音響信号は異なる音源の時間重畳から生じる。
ヒトの実験では、聴覚系は音響入力に埋め込まれた繰り返しパターンとして音源を識別できることが示されている。
音響刺激の混合配列のブラインドソース分離を行うための生物学的にインスパイアされた計算モデルを提案する。
論文 参考訳(メタデータ) (2022-01-16T19:35:59Z) - Binaural SoundNet: Predicting Semantics, Depth and Motion with Binaural
Sounds [118.54908665440826]
人間は視覚的および/または聴覚的手がかりを用いて、オブジェクトを頑健に認識し、ローカライズすることができる。
この研究は、純粋に音に基づくシーン理解のためのアプローチを開発する。
視覚的および音声的手がかりの共存は、監督伝達に活用される。
論文 参考訳(メタデータ) (2021-09-06T22:24:00Z) - A Deep Reinforcement Learning Approach to Audio-Based Navigation in a
Multi-Speaker Environment [1.0527821704930371]
環境からの生の聴覚感覚情報のみを使用して、2次元空間をナビゲートできる自律エージェントを作成します。
私たちの実験は、エージェントが部屋の$ N$事前定義されたスピーカーのセットの中で特定のターゲットスピーカーを首尾よく識別できることを示しています。
エージェントは、話者ピッチシフトに対して堅牢であり、各話者に対して限られた数の訓練発話が利用できる場合でも、環境をナビゲートすることができる。
論文 参考訳(メタデータ) (2021-05-10T16:26:47Z) - Visually Informed Binaural Audio Generation without Binaural Audios [130.80178993441413]
記録のない効果的なパイプラインであるPseudoBinauralを提案します。
本研究では球面高調波分解と頭部関連インパルス応答(hrir)を用いて空間位置と受信音声の関係を同定する。
当社の記録のないパイプラインは、データセット間の評価において大きな安定性を示し、主観的な好みで匹敵するパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-13T13:07:33Z) - Learning in the Wild with Incremental Skeptical Gaussian Processes [27.700043183428807]
ガウス過程(GP)を中心とした懐疑的学習の再考を提案する。
我々の再設計はISGPと呼ばれ、GPが供給する不確実性推定を活用して、ラベル付けと矛盾するクエリをよりよく割り当てる。
合成および実世界のデータを用いた実験では、ISGPは様々なノイズレベルにおいてうまく機能し、新しいクラスが観測される。
論文 参考訳(メタデータ) (2020-11-02T12:19:47Z) - Noisy Agents: Self-supervised Exploration by Predicting Auditory Events [127.82594819117753]
本稿では, エージェントが行動の因果的影響を理解することを奨励する, 強化学習(Reinforcement Learning, RL)の本質的なモチベーションを提案する。
ニューラルネットワークを用いて聴覚事象を予測し、予測誤差を本質的な報奨として利用し、RL探索を誘導する。
Atariゲームの実験結果から、我々の新しい本質的な動機は、最先端のベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2020-07-27T17:59:08Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z) - Does Visual Self-Supervision Improve Learning of Speech Representations
for Emotion Recognition? [63.564385139097624]
本研究は,音声表現の学習を指導するために,顔再構成による視覚的自己監督について検討する。
提案した視覚的・音声的自己監督のマルチタスクの組み合わせは,よりリッチな特徴を学習する上で有益であることを示す。
学習した音声表現を、離散的感情認識、連続的感情認識、自動音声認識のために評価する。
論文 参考訳(メタデータ) (2020-05-04T11:33:40Z) - Semantic Object Prediction and Spatial Sound Super-Resolution with
Binaural Sounds [106.87299276189458]
人間は視覚的および聴覚的手がかりを統合することで、オブジェクトを強く認識し、ローカライズすることができる。
この研究は、純粋に音に基づく、音生成対象の密接なセマンティックラベリングのためのアプローチを開発する。
論文 参考訳(メタデータ) (2020-03-09T15:49:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。