論文の概要: End-to-end Topographic Auditory Models Replicate Signatures of Human Auditory Cortex
- arxiv url: http://arxiv.org/abs/2509.24039v1
- Date: Sun, 28 Sep 2025 19:20:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.603109
- Title: End-to-end Topographic Auditory Models Replicate Signatures of Human Auditory Cortex
- Title(参考訳): エンド・ツー・エンドの聴覚モデルによるヒト聴覚皮質の信号の再現
- Authors: Haider Al-Tahan, Mayukh Deb, Jenelle Feather, N. Apurva Ratan Murty,
- Abstract要約: ヒトの聴覚的 fMRI 応答の予測において,皮質トポグラフィーは過去の最高性能モデルには存在しないことを示す。
地形組織の形成を促進するために,視覚知覚のために考案された皮質配線制約を適応させる。
TopoAudioは、初期地形を示す最初のエンド・ツー・エンドの生物学的基盤を持つ聴覚モデルである。
- 参考スコア(独自算出の注目度): 6.412156163233532
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The human auditory cortex is topographically organized. Neurons with similar response properties are spatially clustered, forming smooth maps for acoustic features such as frequency in early auditory areas, and modular regions selective for music and speech in higher-order cortex. Yet, evaluations for current computational models of auditory perception do not measure whether such topographic structure is present in a candidate model. Here, we show that cortical topography is not present in the previous best-performing models at predicting human auditory fMRI responses. To encourage the emergence of topographic organization, we adapt a cortical wiring-constraint loss originally designed for visual perception. The new class of topographic auditory models, TopoAudio, are trained to classify speech, and environmental sounds from cochleagram inputs, with an added constraint that nearby units on a 2D cortical sheet develop similar tuning. Despite these additional constraints, TopoAudio achieves high accuracy on benchmark tasks comparable to the unconstrained non-topographic baseline models. Further, TopoAudio predicts the fMRI responses in the brain as well as standard models, but unlike standard models, TopoAudio develops smooth, topographic maps for tonotopy and amplitude modulation (common properties of early auditory representation, as well as clustered response modules for music and speech (higher-order selectivity observed in the human auditory cortex). TopoAudio is the first end-to-end biologically grounded auditory model to exhibit emergent topography, and our results emphasize that a wiring-length constraint can serve as a general-purpose regularization tool to achieve biologically aligned representations.
- Abstract(参考訳): ヒト聴覚皮質は地形的に組織化されている。
同様の応答特性を持つニューロンは空間的にクラスタ化され、初期の聴覚領域の周波数や高次皮質における音楽や音声に選択されたモジュラー領域などの音響特性の円滑なマップを形成する。
しかし、現在の聴覚知覚の計算モデルに対する評価は、そのような地形構造が候補モデルに存在するかどうかを測るものではない。
ここでは,ヒトの聴覚的 fMRI 応答の予測において,これまでの最高性能モデルには皮質トポグラフィーは存在しないことを示す。
地形組織の形成を促進するために,視覚知覚のために考案された皮質配線制約を適応させる。
TopoAudioは2次元皮質シート上の近傍の単位が類似した調律を発達させる制約を加えることで、コクリーグラム入力からの音声と環境音の分類を訓練する。
これらの追加制約にもかかわらず、TopoAudioは、制約のない非トポグラフィーベースラインモデルに匹敵するベンチマークタスクで高い精度を達成する。
さらに、TopoAudioは脳内のfMRI応答と標準モデルを予測するが、標準モデルとは異なり、TopoAudioはトノトピーと振幅変調のための滑らかなトポグラフィマップ(初期の聴覚表現の共通特性、および音楽と音声のためのクラスタ化された応答モジュール(人間の聴覚皮質で観察される高次選択性)を開発する。
TopoAudio は,生物に整合した表現を実現するための汎用正規化ツールとして,配線長制約が有効であることを示す。
関連論文リスト
- Thinking While Listening: Simple Test Time Scaling For Audio Classification [61.3564313676731]
本稿では,ニューラルネットワークが日常の音を聴きながら"考える"ことを可能にするフレームワークを提案する。
大規模言語モデルの推論能力の最近の進歩により、我々は2つの中心的な疑問に対処する: (i) 既存の音声分類パイプラインに思考を組み込んで、カテゴリ空間での推論を可能にし、パフォーマンスを向上させる方法、(ii) 思考とテストタイムのスケーリングの両方をサポートするために、新しいアーキテクチャをゼロから設計することができるか。
論文 参考訳(メタデータ) (2025-09-24T01:17:24Z) - WoW-Bench: Evaluating Fine-Grained Acoustic Perception in Audio-Language Models via Marine Mammal Vocalizations [67.6147632074449]
海洋哺乳動物の発声を用いた低レベルの聴覚知覚と認知を評価するために,WoW-Benchベンチマーク(World-of-Whale benchmark)を導入した。
WoW-Benchは、新しい音を分類するための知覚ベンチマークと、ブルームの分類学にインスパイアされた認知ベンチマークで構成され、音の出来事を記憶、理解、応用、分析する能力を評価する。
最先端のLALMを用いた実験は、人間のレベルよりもはるかに低い性能を示し、LALMのより強力な聴覚的接地の必要性を示している。
論文 参考訳(メタデータ) (2025-08-28T16:29:46Z) - Learning Robust Spatial Representations from Binaural Audio through Feature Distillation [64.36563387033921]
データラベルを必要とせずに音声の頑健な空間表現を学習するために,特徴蒸留に基づく事前学習ステージの利用について検討する。
実験により, 事前学習したモデルでは, 騒音および残響環境における性能が向上していることが示された。
論文 参考訳(メタデータ) (2025-08-28T15:43:15Z) - Foundation Model Hidden Representations for Heart Rate Estimation from Auscultation [3.1379239557375223]
Auscultation(特に心臓の音)は、重要な重要なサイン情報を提供する非侵襲的なテクニックである。
近年,自己教師型音響表現基盤モデル (FM) が提案され,音響に基づくバイタルサインの洞察が得られた。
論文 参考訳(メタデータ) (2025-05-27T05:36:25Z) - Unveiling and Mitigating Bias in Audio Visual Segmentation [9.427676046134374]
コミュニティ研究者は、物体のマスクの音質を改善するために、様々な高度なオーディオ視覚セグメンテーションモデルを開発した。
これらのモデルによって作られたマスクは、最初は可塑性に見えるかもしれないが、しばしば誤った接地論理を持つ異常を示す。
我々はこれを、複雑なオーディオ・視覚的グラウンドよりも単純な学習信号として、現実世界固有の嗜好と分布に帰着する。
論文 参考訳(メタデータ) (2024-07-23T16:55:04Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Visually Informed Binaural Audio Generation without Binaural Audios [130.80178993441413]
記録のない効果的なパイプラインであるPseudoBinauralを提案します。
本研究では球面高調波分解と頭部関連インパルス応答(hrir)を用いて空間位置と受信音声の関係を同定する。
当社の記録のないパイプラインは、データセット間の評価において大きな安定性を示し、主観的な好みで匹敵するパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-13T13:07:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。