論文の概要: Learning Absolute Sound Source Localisation With Limited Supervisions
- arxiv url: http://arxiv.org/abs/2001.10605v1
- Date: Tue, 28 Jan 2020 21:59:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-01-06 02:42:50.479991
- Title: Learning Absolute Sound Source Localisation With Limited Supervisions
- Title(参考訳): 限られたスーパービジョンによる絶対音源定位学習
- Authors: Yang Chu, Wayne Luk, Dan Goodman
- Abstract要約: 正確な聴覚空間マップは、例えば、発達中や、修正ピンナのような修正された聴覚手がかりに対する応答など、聴覚経験から学習することができる。
我々は,限られた監督基準に基づいて,水平面上の単一音源の局所化を学習するニューラルネットワークモデルについて検討した。
- 参考スコア(独自算出の注目度): 2.745827783449186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An accurate auditory space map can be learned from auditory experience, for
example during development or in response to altered auditory cues such as a
modified pinna. We studied neural network models that learn to localise a
single sound source in the horizontal plane using binaural cues based on
limited supervisions. These supervisions can be unreliable or sparse in real
life. First, a simple model that has unreliable estimation of the sound source
location is built, in order to simulate the unreliable auditory orienting
response of newborns. It is used as a Teacher that acts as a source of
unreliable supervisions. Then we show that it is possible to learn a continuous
auditory space map based only on noisy left or right feedbacks from the
Teacher. Furthermore, reinforcement rewards from the environment are used as a
source of sparse supervision. By combining the unreliable innate response and
the sparse reinforcement rewards, an accurate auditory space map, which is hard
to be achieved by either one of these two kind of supervisions, can eventually
be learned. Our results show that the auditory space mapping can be calibrated
even without explicit supervision. Moreover, this study implies a possibly more
general neural mechanism where multiple sub-modules can be coordinated to
facilitate each other's learning process under limited supervisions.
- Abstract(参考訳): 正確な聴覚空間マップは、例えば発達中や変化したピンナのような聴覚手がかりに反応して聴覚経験から学習することができる。
バイノーラルキューを用いて,1つの音源を水平面にローカライズすることを学習するニューラルネットワークモデルについて検討した。
これらの監督は実生活では信頼できないか疎遠である。
まず、新生児の信頼できない聴覚指向応答をシミュレートするために、音源位置の信頼性の低い簡易モデルを構築した。
教師として使われ、信頼できない監督の源となっている。
そして,教師からの雑音や右からのフィードバックに基づいて,連続的な聴覚空間マップを学習することができることを示す。
さらに、環境からの強化報酬をスパース・インスペクションの源泉として利用する。
信頼できない自然応答とスパース強化報酬を組み合わせることで、これらの2種類の監督者のいずれかによって達成が難しい正確な聴覚空間マップを最終的に学習することができる。
その結果,聴覚空間マッピングは明示的な監督なしにも校正できることがわかった。
さらに本研究は,複数のサブモジュールを協調して相互の学習プロセスを促進する,より汎用的な神経機構を示唆する。
関連論文リスト
- Reciprocal Learning of Intent Inferral with Augmented Visual Feedback for Stroke [2.303526979876375]
本稿では,意図的推論型分類器への人間の適応を容易にする双方向パラダイムを提案する。
我々はこのパラダイムを、脳卒中のためのロボットハンドの整形制御の文脈で実証する。
脳卒中患者を対象に行った実験では,他者に対するパフォーマンスに悪影響を及ぼすことなく,サブセットでの相互学習によるパフォーマンス向上が見られた。
論文 参考訳(メタデータ) (2024-12-10T22:49:36Z) - CANDERE-COACH: Reinforcement Learning from Noisy Feedback [12.232688822099325]
CANDERE-COACHアルゴリズムは、非最適教師によるノイズフィードバックから学習することができる。
本稿では,教師のフィードバックの最大40%が誤りであった場合,RLエージェントが学習を成功させるためのノイズフィルタリング機構を提案する。
論文 参考訳(メタデータ) (2024-09-23T20:14:12Z) - An iterated learning model of language change that mixes supervised and unsupervised learning [0.0]
反復学習モデルは、世代から世代への言語の伝達をシミュレートするエージェントモデルである。
各イテレーションにおいて、言語家庭教師は、ナイーブな瞳孔を限られた発話の訓練セットに公開し、それぞれがランダムな意味とそれを伝達する信号とをペアリングする。
送信ボトルネックは、チューターが経験したトレーニングセットを超えて一般化する必要があることを保証します。
論文 参考訳(メタデータ) (2024-05-31T14:14:01Z) - Predictive auxiliary objectives in deep RL mimic learning in the brain [2.6703221234079946]
深層強化学習システムにおいて,予測補助目的が表現学習に与える影響について検討した。
予測的目的は,特に資源限定アーキテクチャにおける学習の改善と安定化を図っている。
我々は、RLシステムの補助的予測モデルと、記憶誘導行動を支援するための予測モデルを学ぶと考えられる海馬との関係を描いている。
論文 参考訳(メタデータ) (2023-10-09T19:06:25Z) - Learning to Separate Voices by Spatial Regions [5.483801693991577]
イヤホンや補聴器などの応用における音声分離の問題点を考察する。
比較的クリーンなパーソナライズされた信号を抽出するために、イヤホンからの過剰な音声を前処理する2段階の自己教師型フレームワークを提案する。
結果は、一般的な教師付きアプローチよりもパーソナライズの重要性を強調し、有望なパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-07-09T06:25:01Z) - The least-control principle for learning at equilibrium [65.2998274413952]
我々は、平衡反復ニューラルネットワーク、深層平衡モデル、メタラーニングを学ぶための新しい原理を提案する。
私たちの結果は、脳がどのように学習するかを明らかにし、幅広い機械学習問題にアプローチする新しい方法を提供します。
論文 参考訳(メタデータ) (2022-07-04T11:27:08Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - Decoupling Knowledge from Memorization: Retrieval-augmented Prompt
Learning [113.58691755215663]
一般化と記憶のバランスをとるためにRetroPromptを開発した。
バニラプロンプト学習とは対照的に、RetroPromptはトレーニングインスタンスからオープンブックナレッジストアを構築する。
大規模な実験により、RetroPromptは、数ショットとゼロショットの両方で、より良いパフォーマンスを得ることができることが示されている。
論文 参考訳(メタデータ) (2022-05-29T16:07:30Z) - Learning Neural Acoustic Fields [110.22937202449025]
音が物理的場面でどのように伝搬するかを暗黙的に表現するニューラル・アコースティック・フィールズ(NAF)を導入する。
シーン内の音響伝搬を線形時間不変系としてモデル化することにより、NAFは全てのエミッタとリスナーの位置ペアを連続的にマッピングすることを学ぶ。
NAFの連続的な性質により、任意の場所でリスナーの空間音響を描画することができ、新しい場所での音の伝搬を予測できることを実証する。
論文 参考訳(メタデータ) (2022-04-04T17:59:37Z) - Modeling the Repetition-based Recovering of Acoustic and Visual Sources
with Dendritic Neurons [5.306881553301636]
自然の聴覚環境において、音響信号は異なる音源の時間重畳から生じる。
ヒトの実験では、聴覚系は音響入力に埋め込まれた繰り返しパターンとして音源を識別できることが示されている。
音響刺激の混合配列のブラインドソース分離を行うための生物学的にインスパイアされた計算モデルを提案する。
論文 参考訳(メタデータ) (2022-01-16T19:35:59Z) - Binaural SoundNet: Predicting Semantics, Depth and Motion with Binaural
Sounds [118.54908665440826]
人間は視覚的および/または聴覚的手がかりを用いて、オブジェクトを頑健に認識し、ローカライズすることができる。
この研究は、純粋に音に基づくシーン理解のためのアプローチを開発する。
視覚的および音声的手がかりの共存は、監督伝達に活用される。
論文 参考訳(メタデータ) (2021-09-06T22:24:00Z) - Reasoning-Modulated Representations [85.08205744191078]
タスクが純粋に不透明でないような共通的な環境について研究する。
我々のアプローチは、新しいデータ効率表現学習の道を開く。
論文 参考訳(メタデータ) (2021-07-19T13:57:13Z) - A Deep Reinforcement Learning Approach to Audio-Based Navigation in a
Multi-Speaker Environment [1.0527821704930371]
環境からの生の聴覚感覚情報のみを使用して、2次元空間をナビゲートできる自律エージェントを作成します。
私たちの実験は、エージェントが部屋の$ N$事前定義されたスピーカーのセットの中で特定のターゲットスピーカーを首尾よく識別できることを示しています。
エージェントは、話者ピッチシフトに対して堅牢であり、各話者に対して限られた数の訓練発話が利用できる場合でも、環境をナビゲートすることができる。
論文 参考訳(メタデータ) (2021-05-10T16:26:47Z) - Visually Informed Binaural Audio Generation without Binaural Audios [130.80178993441413]
記録のない効果的なパイプラインであるPseudoBinauralを提案します。
本研究では球面高調波分解と頭部関連インパルス応答(hrir)を用いて空間位置と受信音声の関係を同定する。
当社の記録のないパイプラインは、データセット間の評価において大きな安定性を示し、主観的な好みで匹敵するパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-13T13:07:33Z) - Predicting Emotions Perceived from Sounds [2.9398911304923447]
音化とは、音を通してユーザとデータやイベントを通信する科学である。
本稿では、いくつかの主流および従来型の機械学習アルゴリズムを開発する実験を行う。
知覚された感情を高い精度で予測することが可能である。
論文 参考訳(メタデータ) (2020-12-04T15:01:59Z) - Learning in the Wild with Incremental Skeptical Gaussian Processes [27.700043183428807]
ガウス過程(GP)を中心とした懐疑的学習の再考を提案する。
我々の再設計はISGPと呼ばれ、GPが供給する不確実性推定を活用して、ラベル付けと矛盾するクエリをよりよく割り当てる。
合成および実世界のデータを用いた実験では、ISGPは様々なノイズレベルにおいてうまく機能し、新しいクラスが観測される。
論文 参考訳(メタデータ) (2020-11-02T12:19:47Z) - Local plasticity rules can learn deep representations using
self-supervised contrastive predictions [3.6868085124383616]
生物学的制約を尊重するが、深い階層的な表現をもたらす学習規則はまだ不明である。
本稿では,神経科学からインスピレーションを得た学習ルールを提案し,近年の自己教師型深層学習の進歩について述べる。
この自己監督的かつ局所的なルールで訓練されたネットワークは、画像、音声、ビデオの深い階層的表現を構築する。
論文 参考訳(メタデータ) (2020-10-16T09:32:35Z) - Noisy Agents: Self-supervised Exploration by Predicting Auditory Events [127.82594819117753]
本稿では, エージェントが行動の因果的影響を理解することを奨励する, 強化学習(Reinforcement Learning, RL)の本質的なモチベーションを提案する。
ニューラルネットワークを用いて聴覚事象を予測し、予測誤差を本質的な報奨として利用し、RL探索を誘導する。
Atariゲームの実験結果から、我々の新しい本質的な動機は、最先端のベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2020-07-27T17:59:08Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z) - VisualEchoes: Spatial Image Representation Learning through Echolocation [97.23789910400387]
いくつかの動物種(コウモリ、イルカ、クジラなど)や視覚障害者さえもエコーロケーションを行う能力を持っている。
エコーロケーションを用いて有用な視覚特徴を学習する対話型表現学習フレームワークを提案する。
我々の研究は、物理的世界との相互作用によって監督される、エンボディエージェントのための表現学習の新しい道を開く。
論文 参考訳(メタデータ) (2020-05-04T16:16:58Z) - Does Visual Self-Supervision Improve Learning of Speech Representations
for Emotion Recognition? [63.564385139097624]
本研究は,音声表現の学習を指導するために,顔再構成による視覚的自己監督について検討する。
提案した視覚的・音声的自己監督のマルチタスクの組み合わせは,よりリッチな特徴を学習する上で有益であることを示す。
学習した音声表現を、離散的感情認識、連続的感情認識、自動音声認識のために評価する。
論文 参考訳(メタデータ) (2020-05-04T11:33:40Z) - Semantic Object Prediction and Spatial Sound Super-Resolution with
Binaural Sounds [106.87299276189458]
人間は視覚的および聴覚的手がかりを統合することで、オブジェクトを強く認識し、ローカライズすることができる。
この研究は、純粋に音に基づく、音生成対象の密接なセマンティックラベリングのためのアプローチを開発する。
論文 参考訳(メタデータ) (2020-03-09T15:49:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。