論文の概要: Auditory Intelligence: Understanding the World Through Sound
- arxiv url: http://arxiv.org/abs/2508.07829v1
- Date: Mon, 11 Aug 2025 10:25:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.043098
- Title: Auditory Intelligence: Understanding the World Through Sound
- Title(参考訳): 聴覚知能:音を通して世界を理解する
- Authors: Hyeonuk Nam,
- Abstract要約: 本稿では,知覚,推論,相互作用を包含する階層的位置決めプロセスとして,聴覚知能の概念的再フレーミングを提案する。
時間周波数パターンキャプション,階層的イベント/シーン記述,因果的説明,目標駆動解釈の4つの認知的インスピレーションを受けたタスクパラダイム(ASPIRE, SODA, AUX, AUGMENT)を紹介する。
- 参考スコア(独自算出の注目度): 4.6684925321613076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in auditory intelligence has yielded high-performing systems for sound event detection (SED), acoustic scene classification (ASC), automated audio captioning (AAC), and audio question answering (AQA). Yet these tasks remain largely constrained to surface-level recognition-capturing what happened but not why, what it implies, or how it unfolds in context. I propose a conceptual reframing of auditory intelligence as a layered, situated process that encompasses perception, reasoning, and interaction. To instantiate this view, I introduce four cognitively inspired task paradigms-ASPIRE, SODA, AUX, and AUGMENT-those structure auditory understanding across time-frequency pattern captioning, hierarchical event/scene description, causal explanation, and goal-driven interpretation, respectively. Together, these paradigms provide a roadmap toward more generalizable, explainable, and human-aligned auditory intelligence, and are intended to catalyze a broader discussion of what it means for machines to understand sound.
- Abstract(参考訳): 近年の聴覚知能の進歩により、音響事象検出(SED)、音響シーン分類(ASC)、自動音声キャプション(AAC)、音声質問応答(AQA)などの高性能システムが実現されている。
しかし、これらのタスクは、何が起きたのか、何を意味するのか、コンテキスト内でどのように展開されるのかではなく、表面レベルの認識キャプチャーに大きく制約されている。
本稿では,知覚,推論,相互作用を包含する階層的位置決めプロセスとして,聴覚知能の概念的再フレーミングを提案する。
この視点をインスタンス化するために、時間周波数パターンキャプション、階層的なイベント/シーン記述、因果説明、ゴール駆動解釈の4つの認知的インスピレーションを受けたタスクパラダイム(ASPIRE, SODA, AUX, AUGMENT)を紹介した。
これらのパラダイムは、より一般化可能で、説明可能で、ヒューマンアラインな聴覚インテリジェンスに向けたロードマップを提供し、機械が音を理解することの意味についてより広範な議論を触媒することを目的としている。
関連論文リスト
- SpeechIQ: Speech Intelligence Quotient Across Cognitive Levels in Voice Understanding Large Language Models [76.07833875692722]
音声に基づくインテリジェンス・クオシエント(SIQ)は、人間の認知にインスパイアされた評価パイプラインの新たな形態であり、大きな言語モデルを理解するためのものである。
私たちのフレームワークは、認知原則を音声指向のベンチマークでブリッジする、第一種知能検査を表現しています。
論文 参考訳(メタデータ) (2025-07-25T15:12:06Z) - Beyond Classification: Towards Speech Emotion Reasoning with Multitask AudioLLMs [37.62433475609052]
我々は,意味的に整合したエビデンスに基づく説明を行うことで,感情認識を強化する戦略を開発する。
本稿では、推論強化データ監視、デュアルエンコーダアーキテクチャ、タスク代替トレーニングを組み合わせた統合フレームワークを提案する。
IEMOCAPとMELDの実験により、我々のアプローチは感情予測精度を向上するだけでなく、生成した応答のコヒーレンスと明解なグラウンド化も向上することが示された。
論文 参考訳(メタデータ) (2025-06-07T14:52:58Z) - Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge [102.84031769492708]
本課題は,多様な音響シーンに対する対話型質問応答における音声モデルをテストするための3つのQAサブセットを定義する。
開発セットの予備的な結果を比較し、モデルとサブセット間で強い変動を示す。
この課題は、音声モデルの音声理解と推論能力を人間レベルに向上することを目的としている。
論文 参考訳(メタデータ) (2025-05-12T09:04:16Z) - AAD-LLM: Neural Attention-Driven Auditory Scene Understanding [9.596626274863832]
本稿では,聴取者の注意を喚起するために脳信号を統合するプロトタイプシステムAAD-LLMについて述べる。
AAD-LLMは、参加話者を神経活動から予測し、この推定された注意状態に対して応答生成を条件付ける。
話者記述, 音声の書き起こし, 抽出, 質問応答について, マルチストーカーのシナリオでAAD-LLMを評価する。
論文 参考訳(メタデータ) (2025-02-24T03:06:45Z) - Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。
これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文 参考訳(メタデータ) (2024-10-21T15:55:27Z) - Towards Word-Level End-to-End Neural Speaker Diarization with Auxiliary
Network [28.661704280484457]
補助的ネットワークを用いたワードレベル終端ニューラルダイアリゼーション(WEEND)を提案する。
WEENDは高品質なダイアリゼーションテキストを提供する可能性を秘めている。
論文 参考訳(メタデータ) (2023-09-15T15:48:45Z) - Introducing Semantics into Speech Encoders [91.37001512418111]
本研究では,大言語モデルからの意味情報をラベル付き音声書き起こしのない自己教師付き音声エンコーダに組み込む教師なしの手法を提案する。
提案手法は,100時間以上のラベル付き音声書き起こしにおける教師あり手法と類似した性能を実現する。
論文 参考訳(メタデータ) (2022-11-15T18:44:28Z) - Contextualized Attention-based Knowledge Transfer for Spoken
Conversational Question Answering [63.72278693825945]
音声対話型質問応答 (SCQA) は複雑な対話の流れをモデル化するために機械を必要とする。
本稿では,新しい文脈型注意型蒸留手法CADNetを提案する。
Spoken-CoQAデータセット上で広範な実験を行い、本手法が優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-21T15:17:18Z) - Speaker-Utterance Dual Attention for Speaker and Utterance Verification [77.2346078109261]
我々は,統合ニューラルネットワークにおける話者発話二重注意(SUDA)の考え方を実装した。
提案するSUDAは,話者と発話情報ストリーム間のインタラクションを学習するためのアテンションマスク機構を備えている。
論文 参考訳(メタデータ) (2020-08-20T11:37:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。