論文の概要: Scaling Auditory Cognition via Test-Time Compute in Audio Language Models
- arxiv url: http://arxiv.org/abs/2503.23395v1
- Date: Sun, 30 Mar 2025 11:04:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:57.100758
- Title: Scaling Auditory Cognition via Test-Time Compute in Audio Language Models
- Title(参考訳): 音声モデルにおけるテスト時間計算による聴覚認知のスケーリング
- Authors: Ting Dang, Yan Gao, Hong Jia,
- Abstract要約: 大規模言語モデル (LLM) は自然言語処理において極めて多目的性を示している。
音声LLMは音声認識や合成といったタスクに優れる。
現実の環境がもたらす聴覚的認知的課題に直面するとき、どのように機能するかは、まだ不明である。
- 参考スコア(独自算出の注目度): 9.927800622905265
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) have shown exceptional versatility in natural language processing, prompting recent efforts to extend their multimodal capabilities to speech processing through the development of audio large language models (Audio LLMs). While Audio LLMs excel in tasks such as speech recognition and synthesis, it remains unclear how they perform when faced with the auditory cognitive challenges posed by real-world environments, such as audio comprehension and listening recall, particularly in the presence of background noise or overlapping speech. Unlike text-based LLMs, which have access to vast amounts of text data for pre-training, retraining Audio LLMs with diverse auditory cognitive scenes is difficult due to the limited datasets that simulate real-world auditory cognitive scenarios and the challenge of acquiring auditory cognitive labels for training. While test-time compute (TTC) methods have been shown to enhance the capabilities of text-based LLMs during inference, a key challenge lies in designing these TTC methods to improve the auditory capabilities of Audio LLMs. This study aims to address these two research gaps by: i) exploring the auditory cognitive capabilities of Audio LLMs, and ii) enhancing their capabilities using TTC approaches. We have investigated five different Audio LLMs for auditory cognition using a \textit{self-collected} database and have proposed five TTC approaches to enhance auditory cognitive capabilities during inference. Our findings reveal that Audio LLMs performance decreases in more challenging auditory cognitive tasks. The proposed TTC approaches significantly enhance cognitive auditory capabilities, advancing the development of more adaptable and resilient Audio LLMs for practical applications such as assistive listening devices, voice-based AI assistants, and communication technologies.
- Abstract(参考訳): 大規模言語モデル (LLMs) は自然言語処理において極めて多目的性を示しており、音声大言語モデル (Audio LLMs) の開発を通じて、その多モーダル能力を音声処理に拡張する試みが近年進められている。
音声LLMは音声認識や合成などのタスクに優れるが、特に背景雑音や重複した音声の存在下では、音声理解や聴取リコールといった現実の環境によってもたらされる聴覚的認知的課題に直面すると、どのように機能するかは、いまだ不明である。
事前学習のための大量のテキストデータにアクセスするテキストベースのLLMとは異なり、実世界の聴覚認知シナリオをシミュレートする限られたデータセットと、訓練のための聴覚認知ラベルを取得することの難しさから、多様な聴覚認知シーンを持つオーディオLLMの再訓練は困難である。
テスト時間計算(TTC)手法は、推論中にテキストベースのLLMの能力を高めることが示されているが、オーディオLLMの聴覚能力を改善するためにこれらのTTC法を設計する上で重要な課題である。
本研究は,これらの2つの研究ギャップを次のように解決することを目的としている。
一 音声LLMの聴覚認知能力の探索及び
ii) TTCアプローチによる能力向上。
我々は, 音声認識のための5種類のLLMを, textit{self-collected}データベースを用いて検討し, 推論中の聴覚認知能力を高めるための5つのTTC手法を提案した。
以上の結果から,聴覚認知タスクにおいてオーディオLLMのパフォーマンスが低下することが判明した。
提案したTTCアプローチは認知聴覚能力を大幅に向上させ、補助聴取装置、音声ベースのAIアシスタント、通信技術などの実用的な応用のために、より適応性が高く弾力性のあるオーディオLLMの開発を推進している。
関連論文リスト
- Imagine to Hear: Auditory Knowledge Generation can be an Effective Assistant for Language Models [11.136112399898481]
生成モデルを用いて聴覚知識を動的に生成する新しい手法であるImagine to Hearを提案する。
本フレームワークは、与えられたプロンプトから複数の音声関連テキストスパンを検出し、対応する聴覚知識を生成する。
実験の結果,外部データベースに頼らずにAuditoryBenchの最先端性能を実現することができた。
論文 参考訳(メタデータ) (2025-03-21T04:56:22Z) - Audio-CoT: Exploring Chain-of-Thought Reasoning in Large Audio Language Model [26.20569269005708]
LALM(Large Audio-Language Models)は、音声知覚や理解に関わるタスクにおいて顕著な性能を示す。
しかし、それらの推論能力は、複雑な現実世界の問題を解決するのに重要なものであり、まだ未解明のままである。
聴覚モダリティを越えた推論能力を高めるため, LALMへのCoT推論の統合を初めて実施する。
論文 参考訳(メタデータ) (2025-01-13T11:54:40Z) - VoiceBench: Benchmarking LLM-Based Voice Assistants [58.84144494938931]
大規模言語モデル(LLM)に基づいて音声アシスタントを評価する最初のベンチマークであるVoiceBenchを紹介する。
VoiceBenchには、上記の3つの重要な実世界のバリエーションを含む、実話と合成音声の両方が含まれている。
大規模な実験は、現在のLLMベースの音声アシスタントモデルの限界を明らかにし、この分野における将来の研究・開発に貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-10-22T17:15:20Z) - Large Language Models are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法を評価し,WERが0.79%,AVSRが0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - Understanding Sounds, Missing the Questions: The Challenge of Object Hallucination in Large Audio-Language Models [49.87432626548563]
本稿では,一般公開LALMの物体幻覚の程度を評価する手法を提案する。
以上の結果から,LALMは音声コンテンツの理解において,特別な音声キャプションモデルに匹敵するものであることが明らかとなった。
差別的質問に対するLALMの性能を高めるために,迅速なエンジニアリングの可能性を探る。
論文 参考訳(メタデータ) (2024-06-12T16:51:54Z) - PhonologyBench: Evaluating Phonological Skills of Large Language Models [57.80997670335227]
音声学は、音声の構造と発音規則の研究であり、Large Language Model (LLM) 研究において批判的であるが、しばしば見落とされがちな要素である。
LLMの音韻的スキルを明示的にテストするための3つの診断タスクからなる新しいベンチマークであるPhonologyBenchを提案する。
我々は,Rhyme Word GenerationとSyllable countingにおいて,人間と比較した場合,それぞれ17%と45%の有意なギャップを観察した。
論文 参考訳(メタデータ) (2024-04-03T04:53:14Z) - LaERC-S: Improving LLM-based Emotion Recognition in Conversation with Speaker Characteristics [25.284238441231853]
会話における感情認識(英: Emotion Recognition in conversation、ERC)とは、会話中の発話ごとに人間の感情を識別するタスクである。
ERCにおける最近の研究は、感情状態を理解するために話者モデリングを用いた事前訓練された大規模言語モデル(LLM)の利用を模索している。
LLMを刺激する新しいフレームワークであるLaERC-Sを提案する。
論文 参考訳(メタデータ) (2024-03-12T02:37:11Z) - Large Language Models are Efficient Learners of Noise-Robust Speech
Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。
本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。
最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文 参考訳(メタデータ) (2024-01-19T01:29:27Z) - Affect Recognition in Conversations Using Large Language Models [9.689990547610664]
影響認識は人間のコミュニケーションにおいて重要な役割を担っている。
本研究では,会話における人間の影響を認識するための言語モデル(LLM)の能力について検討する。
論文 参考訳(メタデータ) (2023-09-22T14:11:23Z) - Exploring the Integration of Large Language Models into Automatic Speech
Recognition Systems: An Empirical Study [0.0]
本稿では,Large Language Models (LLM) と自動音声認識(ASR)システムの統合について検討する。
我々の主な焦点は、LLMのコンテキスト内学習機能を用いて、ASRシステムの性能を向上させる可能性を調査することである。
論文 参考訳(メタデータ) (2023-07-13T02:31:55Z) - Audio Self-supervised Learning: A Survey [60.41768569891083]
SSL(Self-Supervised Learning)は、人間のアノテーションを必要とせずに、大規模データから一般的な表現を見つけることを目的としている。
コンピュータビジョンと自然言語処理の分野での成功により、近年では音声処理や音声処理の分野で採用されている。
論文 参考訳(メタデータ) (2022-03-02T15:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。