論文の概要: AAD-LLM: Neural Attention-Driven Auditory Scene Understanding
- arxiv url: http://arxiv.org/abs/2502.16794v1
- Date: Mon, 24 Feb 2025 03:06:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:56:29.470414
- Title: AAD-LLM: Neural Attention-Driven Auditory Scene Understanding
- Title(参考訳): AAD-LLM:ニューラルアテンション駆動型聴覚シーン理解
- Authors: Xilin Jiang, Sukru Samet Dindar, Vishal Choudhari, Stephan Bickel, Ashesh Mehta, Guy M McKhann, Adeen Flinker, Daniel Friedman, Nima Mesgarani,
- Abstract要約: 本稿では,聴取者の注意を喚起するために脳信号を統合するプロトタイプシステムAAD-LLMについて述べる。
AAD-LLMは、参加話者を神経活動から予測し、この推定された注意状態に対して応答生成を条件付ける。
話者記述, 音声の書き起こし, 抽出, 質問応答について, マルチストーカーのシナリオでAAD-LLMを評価する。
- 参考スコア(独自算出の注目度): 9.596626274863832
- License:
- Abstract: Auditory foundation models, including auditory large language models (LLMs), process all sound inputs equally, independent of listener perception. However, human auditory perception is inherently selective: listeners focus on specific speakers while ignoring others in complex auditory scenes. Existing models do not incorporate this selectivity, limiting their ability to generate perception-aligned responses. To address this, we introduce Intention-Informed Auditory Scene Understanding (II-ASU) and present Auditory Attention-Driven LLM (AAD-LLM), a prototype system that integrates brain signals to infer listener attention. AAD-LLM extends an auditory LLM by incorporating intracranial electroencephalography (iEEG) recordings to decode which speaker a listener is attending to and refine responses accordingly. The model first predicts the attended speaker from neural activity, then conditions response generation on this inferred attentional state. We evaluate AAD-LLM on speaker description, speech transcription and extraction, and question answering in multitalker scenarios, with both objective and subjective ratings showing improved alignment with listener intention. By taking a first step toward intention-aware auditory AI, this work explores a new paradigm where listener perception informs machine listening, paving the way for future listener-centered auditory systems. Demo and code available: https://aad-llm.github.io.
- Abstract(参考訳): 聴覚的大言語モデル(LLM)を含む聴覚基礎モデルでは、聴取者の知覚とは無関係に全ての音声入力を等しく処理する。
しかし、人間の聴覚知覚は本質的に選択的であり、聞き手は複雑な聴覚シーンで他人を無視しながら特定の話者に焦点を当てる。
既存のモデルでは、この選択性は組み込まれておらず、知覚に整合した応答を生成する能力が制限されている。
そこで本研究では,聴取者の注意を喚起するための脳信号を統合するプロトタイプシステム,II-ASU(Intention-Informed Auditory Scene Understanding)とAAD-LLM(Auditory Attention-Driven LLM)を紹介する。
AAD-LLMは、頭蓋内脳波記録(iEEG)を組み込んで聴覚性LLMを拡張し、聴取者がどの話者に出席しているかを復号し、応答を洗練させる。
モデルはまず、参加話者を神経活動から予測し、次に、この推定された注意状態に対する応答生成を条件付ける。
話者記述, 音声の書き起こし, 抽出, 質問応答に対するAAD-LLMの評価を行った。
この研究は、意図認識型聴覚AIに向けた第一歩として、リスナー認識がマシンリスニングを通知し、将来のリスナー中心の聴覚システムへの道を開く、新たなパラダイムを探求する。
デモおよびコードは、https://aad-llm.github.io.comで入手できる。
関連論文リスト
- Single-word Auditory Attention Decoding Using Deep Learning Model [9.698931956476692]
聴覚刺激とそれに対応する脳反応を比較して聴覚注意を識別することは、聴覚注意復号法(AAD)として知られている。
本稿では,この課題に対処するため,EEGNetに基づくディープラーニングアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-15T21:57:19Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - Egocentric Auditory Attention Localization in Conversations [25.736198724595486]
本稿では,エゴセントリックなビデオとマルチチャンネルオーディオを用いて,カメラ装着者の聴覚的注意のヒートマップを予測するエンド・ツー・エンドのディープラーニング手法を提案する。
提案手法では,シーンの特徴と全体的推論を利用して予測を行い,難易度の高い多話者会話データセット上でのベースラインのセットを上回ります。
論文 参考訳(メタデータ) (2023-03-28T14:52:03Z) - Jointly Learning Visual and Auditory Speech Representations from Raw
Data [108.68531445641769]
RAVEnは視覚と聴覚の表現を協調的に学習する自己教師型マルチモーダルアプローチである。
我々の設計は、ビデオとオーディオの固有の違いによって駆動される非対称なw.r.t.である。
RAVEnは視覚音声認識における全自己指導手法を超越している。
論文 参考訳(メタデータ) (2022-12-12T21:04:06Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Deep Neural Networks on EEG Signals to Predict Auditory Attention Score
Using Gramian Angular Difference Field [1.9899603776429056]
ある意味では、個人の聴覚的注意スコアは、聴覚的タスクにおいて、その人が持つことができる焦点を示す。
深層学習の最近の進歩と、神経活動を記録する非侵襲的技術は、脳波(EEG)などの技術とともに、個人の聴覚的注意スコアを予測することができるのか?
本稿では,14チャンネルの脳波信号を用いて脳の電気的活動に基づいて聴覚的注意度を推定する問題に焦点をあてる。
論文 参考訳(メタデータ) (2021-10-24T17:58:14Z) - WASE: Learning When to Attend for Speaker Extraction in Cocktail Party
Environments [21.4128321045702]
話者抽出問題では,対象話者からの付加情報が話者の追跡・抽出に寄与することが判明した。
発声のキューにインスパイアされ, 発声のキューを明示的にモデル化し, 話者抽出作業の有効性を検証した。
タスクの観点から、我々のオンセット/オフセットモデルでは、話者抽出と話者依存音声活動検出の相補的な組み合わせである複合タスクを完成させる。
論文 参考訳(メタデータ) (2021-06-13T14:56:05Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z) - Noisy Agents: Self-supervised Exploration by Predicting Auditory Events [127.82594819117753]
本稿では, エージェントが行動の因果的影響を理解することを奨励する, 強化学習(Reinforcement Learning, RL)の本質的なモチベーションを提案する。
ニューラルネットワークを用いて聴覚事象を予測し、予測誤差を本質的な報奨として利用し、RL探索を誘導する。
Atariゲームの実験結果から、我々の新しい本質的な動機は、最先端のベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2020-07-27T17:59:08Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。