論文の概要: Thinking in Directivity: Speech Large Language Model for Multi-Talker Directional Speech Recognition
- arxiv url: http://arxiv.org/abs/2506.14973v1
- Date: Tue, 17 Jun 2025 20:49:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.482455
- Title: Thinking in Directivity: Speech Large Language Model for Multi-Talker Directional Speech Recognition
- Title(参考訳): 指向性を考える:多話者指向音声認識のための音声大言語モデル
- Authors: Jiamin Xie, Ju Lin, Yiteng Huang, Tyler Vuong, Zhaojiang Lin, Zhaojun Yang, Peng Su, Prashant Rawat, Sangeeta Srivastava, Ming Sun, Florian Metze,
- Abstract要約: 指向性SpeechLlamaは、指向性音声認識を実現するために、スマートグラスのマイクロホンアレイを活用する新しいアプローチである。
実験結果から,提案した指向性SpeechLlamaはテキストキューと空間音声の関係を効果的に捉えることができることがわかった。
- 参考スコア(独自算出の注目度): 34.08564665311891
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies have demonstrated that prompting large language models (LLM) with audio encodings enables effective speech recognition capabilities. However, the ability of Speech LLMs to comprehend and process multi-channel audio with spatial cues remains a relatively uninvestigated area of research. In this work, we present directional-SpeechLlama, a novel approach that leverages the microphone array of smart glasses to achieve directional speech recognition, source localization, and bystander cross-talk suppression. To enhance the model's ability to understand directivity, we propose two key techniques: serialized directional output training (S-DOT) and contrastive direction data augmentation (CDDA). Experimental results show that our proposed directional-SpeechLlama effectively captures the relationship between textual cues and spatial audio, yielding strong performance in both speech recognition and source localization tasks.
- Abstract(参考訳): 近年,音声符号化による大規模言語モデル(LLM)の促進により,音声認識能力が向上することが実証されている。
しかし,マルチチャンネル音声を空間的手がかりで理解・処理する音声LLMの能力は,研究の領域としては比較的未定である。
本研究では、指向性音声認識、ソースローカライゼーション、傍観者のクロストーク抑圧を実現するために、スマートグラスのマイクロホンアレイを活用する新しいアプローチである、direct-SpeechLlamaを提案する。
モデルが指向性を理解する能力を高めるために,直列化指向出力トレーニング(S-DOT)とコントラスト指向データ拡張(CDDA)という2つの重要な手法を提案する。
実験結果から,提案した指向性SpeechLlamaはテキストキューと空間音声の関係を効果的に把握し,音声認識と音源定位タスクの双方において高い性能を示すことがわかった。
関連論文リスト
- Incorporating Linguistic Constraints from External Knowledge Source for Audio-Visual Target Speech Extraction [87.49303116989708]
AV-TSEの補助的知識源として,事前学習言語モデル (PSLM) と事前学習言語モデル (PLM) の可能性を検討する。
本研究では, AV-TSE モデルに対するPSLM や PLM からの言語制約を追加の監視信号として活用することを提案する。
推論中に余分な計算コストがなければ、提案手法は音声品質と知能性を一貫して改善する。
論文 参考訳(メタデータ) (2025-06-11T14:36:26Z) - TESU-LLM: Training Speech-LLMs Without Speech via Unified Encoder Alignment [15.899112804399193]
textbfTESU-LLMは,テキストデータのみを用いた音声対応言語モデルの学習を可能にする新しいフレームワークである。
我々の重要な洞察は、意味論的に等価なテキストと音声入力を共有潜在空間にマッピングする統一エンコーダを活用することである。
TESU-LLMはテキストのみに訓練されているにもかかわらず、様々な音声関連ベンチマークで高い性能を達成している。
論文 参考訳(メタデータ) (2025-06-01T09:27:55Z) - Towards Robust Overlapping Speech Detection: A Speaker-Aware Progressive Approach Using WavLM [53.17360668423001]
重なり合う音声検出(OSD)は、会話中に複数の話者が重複する領域を特定することを目的としている。
本研究では,サブタスク間の相関性を高めるために,プログレッシブトレーニング戦略を活用する話者対応プログレッシブOSDモデルを提案する。
実験の結果,提案手法は,AMIテストセット上でF1スコアが82.76%の最先端性能を実現することがわかった。
論文 参考訳(メタデータ) (2025-05-29T07:47:48Z) - Bridging The Multi-Modality Gaps of Audio, Visual and Linguistic for Speech Enhancement [36.136070412464214]
音声強調(SE)は、雑音の多い環境下での音声の品質と可聴性を改善することを目的としている。
近年の研究では、音声信号処理に視覚的手がかりを取り入れることで、SE性能が向上することが示されている。
本稿では,音声,視覚,言語情報を統合した拡散モデルを利用した多モード学習フレームワークDLAV-SEを提案する。
論文 参考訳(メタデータ) (2025-01-23T04:36:29Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Direction-Aware Joint Adaptation of Neural Speech Enhancement and
Recognition in Real Multiparty Conversational Environments [21.493664174262737]
本稿では,現実の多人数会話環境における音声コミュニケーションを支援する拡張現実ヘッドセットの雑音音声認識について述べる。
本研究では,高信頼な推定文字を用いたクリーン音声信号とノイズ音声信号を用いて,マスク推定器とASRモデルを実行時に共同で更新する半教師付き適応手法を提案する。
論文 参考訳(メタデータ) (2022-07-15T03:43:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。