論文の概要: Equipping LLM with Directional Multi-Talker Speech Understanding Capabilities
- arxiv url: http://arxiv.org/abs/2602.07211v1
- Date: Fri, 06 Feb 2026 21:45:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.508142
- Title: Equipping LLM with Directional Multi-Talker Speech Understanding Capabilities
- Title(参考訳): 指向性多話者音声理解機能付きLLMの取得
- Authors: Ju Lin, Jing Pan, Ruizhi Li, Ming Sun, Yuzong Liu, Alaa Hassan, Jing Zheng, Florian Metze,
- Abstract要約: 指向性を大規模言語モデル(LLM)に統合する2つの新しいアプローチを提案する。
これらのアプローチはすべて、スマートグラスに埋め込まれたマルチマイクロホンアレイを使用して、指向性解釈と処理をストリーミング的に最適化する。
- 参考スコア(独自算出の注目度): 20.51281468416298
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent studies have demonstrated that prompting large language models (LLM) with audio encodings enables effective speech understanding capabilities. However, most speech LLMs are trained on single-channel, single-talker data, which makes it challenging to directly apply them to multi-talker and multi-channel speech understanding task. In this work, we present a comprehensive investigation on how to enable directional multi-talker speech understanding capabilities for LLMs, specifically in smart glasses usecase. We propose two novel approaches to integrate directivity into LLMs: (1) a cascaded system that leverages a source separation front-end module, and (2) an end-to-end system that utilizes serialized output training. All of the approaches utilize a multi-microphone array embedded in smart glasses to optimize directivity interpretation and processing in a streaming manner. Experimental results demonstrate the efficacy of our proposed methods in endowing LLMs with directional speech understanding capabilities, achieving strong performance in both speech recognition and speech translation tasks.
- Abstract(参考訳): 近年,音声符号化による大規模言語モデル(LLM)の促進により,音声理解能力が向上することが実証されている。
しかし、ほとんどのLLMはシングルチャンネルのシングルトーカーデータに基づいて訓練されており、マルチトーカーやマルチチャネル音声理解タスクに直接適用することは困難である。
本研究では,LLMにおける指向性多話者音声理解機能の実現方法,特にスマートグラスのユースケースについて,包括的に検討する。
1)ソース分離フロントエンドモジュールを利用するカスケードシステムと,(2)シリアライズされた出力トレーニングを利用するエンドツーエンドシステムである。
これらのアプローチはすべて、スマートグラスに埋め込まれたマルチマイクロホンアレイを使用して、指向性解釈と処理をストリーミング的に最適化する。
実験結果から,LLMに指向性理解機能を持たせ,音声認識と音声翻訳の両タスクにおいて高い性能を実現する方法の有効性が示された。
関連論文リスト
- EmoSLLM: Parameter-Efficient Adaptation of LLMs for Speech Emotion Recognition [0.0]
音声からの感情認識は言語とパラ言語の両方を捉えることを必要とする難しい課題である。
最近の研究は、Large Language Models(LLM)が唯一の自然言語領域の外でタスクを実行する能力を強調している。
本研究は、感情予測のための音声およびテキスト表現を備えたLLMを微調整する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-08-19T06:58:16Z) - SparQLe: Speech Queries to Text Translation Through LLMs [0.8901073744693314]
そこで本研究では,自己教師型音声表現と命令調整型LLMを併用して音声からテキストへの翻訳を行う手法を提案する。
実験により,本手法は入力音声の意味的内容を効果的に保存し,自己教師型音声モデルと命令調整型LLMの効果的なブリッジとして機能することが示された。
論文 参考訳(メタデータ) (2025-02-13T12:57:15Z) - DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - Large Language Models are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法を評価し,WERが0.79%,AVSRが0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。
We use WavLM and Whisper encoder to extract multi-faceted speech representations that sensitive to speaker characteristics and semantic context。
提案システムであるMT-LLMのカクテルパーティーシナリオにおける有望な性能について実験を行った。
論文 参考訳(メタデータ) (2024-09-13T07:28:28Z) - Prompting Large Language Models with Audio for General-Purpose Speech Summarization [13.415189715216354]
大規模言語モデル(LLM)の処理と推論機能を活用した音声要約フレームワークを提案する。
本稿では,LLM が解釈可能なトークン表現に変換する音声エンコーダと命令調整 LLM を組み合わせたエンドツーエンドシステムを提案する。
論文 参考訳(メタデータ) (2024-06-10T02:04:28Z) - Boosting Large Language Model for Speech Synthesis: An Empirical Study [86.89548753080432]
大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げており、言語能力は音声や視覚など他のモダリティにも拡張されている。
我々は,事前学習したLLM LLaMA/OPTと音声合成モデルVALL-Eを組み合わせることで,LLMの強化と音声生成能力の総合的な実証調査を行う。
テキストエンコーダとしてLLMとVALL-Eを組み合わせることで,LLMとVALL-Eの3つの統合手法を比較した。
論文 参考訳(メタデータ) (2023-12-30T14:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。