論文の概要: Beamforming-LLM: What, Where and When Did I Miss?
- arxiv url: http://arxiv.org/abs/2509.06221v1
- Date: Sun, 07 Sep 2025 21:52:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.912355
- Title: Beamforming-LLM: What, Where and When Did I Miss?
- Title(参考訳): Beamforming-LLM:私はいつ、いつ、見逃したのか?
- Authors: Vishal Choudhari,
- Abstract要約: 本研究では,マルチスピーカ環境において欠落した会話を意味的にリコールするシステムであるBeamforming-LLMを提案する。
このシステムは、マイクロホンアレイを用いた空間オーディオキャプチャと、検索拡張生成(RAG)を組み合わせて、自然言語クエリをサポートする。
- 参考スコア(独自算出の注目度): 0.6655749439594806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Beamforming-LLM, a system that enables users to semantically recall conversations they may have missed in multi-speaker environments. The system combines spatial audio capture using a microphone array with retrieval-augmented generation (RAG) to support natural language queries such as, "What did I miss when I was following the conversation on dogs?" Directional audio streams are separated using beamforming, transcribed with Whisper, and embedded into a vector database using sentence encoders. Upon receiving a user query, semantically relevant segments are retrieved, temporally aligned with non-attended segments, and summarized using a lightweight large language model (GPT-4o-mini). The result is a user-friendly interface that provides contrastive summaries, spatial context, and timestamped audio playback. This work lays the foundation for intelligent auditory memory systems and has broad applications in assistive technology, meeting summarization, and context-aware personal spatial computing.
- Abstract(参考訳): 本研究では,マルチスピーカ環境において欠落した会話を意味的にリコールするシステムであるBeamforming-LLMを提案する。
このシステムは、マイクロフォンアレイを用いた空間的オーディオキャプチャと、検索拡張生成(RAG)を組み合わせることで、"犬と会話するときに何を見逃したか?"といった自然言語クエリをサポートする。
指向性オーディオストリームは、ビームフォーミングを使用して分離され、Whisperで書き起こされ、文エンコーダを使用してベクトルデータベースに埋め込まれる。
ユーザクエリを受信すると、意味的関連セグメントが検索され、時間的に非付加セグメントと整列され、軽量な大言語モデル(GPT-4o-mini)を使用して要約される。
その結果、コントラスト的な要約、空間コンテキスト、タイムスタンプによるオーディオ再生を提供するユーザフレンドリーなインターフェースが実現した。
この研究は、インテリジェントな聴覚記憶システムの基礎を築き、補助技術、ミーティングの要約、コンテキスト対応のパーソナル空間コンピューティングに広く応用されている。
関連論文リスト
- From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - Spatial Audio Processing with Large Language Model on Wearable Devices [6.345647878712574]
空間的音声理解を大規模言語モデル(LLM)に組み込んだ新しいシステムアーキテクチャを提案する。
SINGは空間認識自動音声認識(ASR)をサポートし、単語誤り率(WER)5.3の既存の作業における88.52円の中央値エラーと比較して平均誤差が25.72円$-で大幅に改善されている。
例えば、最大5人まで、DoAエラーの中央値は16ドル(約1万2000円)と見積もっている。
論文 参考訳(メタデータ) (2025-04-11T18:19:59Z) - Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。
We use WavLM and Whisper encoder to extract multi-faceted speech representations that sensitive to speaker characteristics and semantic context。
提案システムであるMT-LLMのカクテルパーティーシナリオにおける有望な性能について実験を行った。
論文 参考訳(メタデータ) (2024-09-13T07:28:28Z) - DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding [51.32965203977845]
本稿では,連続的な音声エンコーダ出力の代わりに離散音声単位(DSU)を用いることを提案する。
提案モデルでは, 未知領域からの音声入力に対する頑健な性能と, 音声質問応答における指示追従能力を示す。
この結果から,ASRタスクとデータセットは,音声質問応答タスクの指導訓練に必須ではないことが示唆された。
論文 参考訳(メタデータ) (2024-06-13T17:28:13Z) - ASoBO: Attentive Beamformer Selection for Distant Speaker Diarization in Meetings [4.125756306660331]
話者ダイアリゼーション(SD)は、同一話者に属する音声セグメントをグループ化することを目的としている。
ビームフォーミング(ビームフォーミング、つまり空間フィルタリング)は、マルチマイクロフォンオーディオデータを処理する一般的な方法である。
本稿では,固定空間フィルタのバンクの出力を選択する自己注意型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-05T13:28:28Z) - Multi-microphone Automatic Speech Segmentation in Meetings Based on
Circular Harmonics Features [0.0]
円形高調波領域(CH-DOA)の方向推定に基づく新しい空間的特徴セットを提案する。
AMIミーティングコーパスの実験では、CH-DOAは非活性化マイクロホンの場合の堅牢さを保ちながらセグメンテーションを改善することができる。
論文 参考訳(メタデータ) (2023-06-07T09:09:00Z) - ESB: A Benchmark For Multi-Domain End-to-End Speech Recognition [100.30565531246165]
音声認識システムはデータセット固有のチューニングを必要とする。
このチューニング要件は、他のデータセットやドメインへの一般化に失敗したシステムにつながる可能性がある。
本稿では,1つの自動音声認識システムの性能を評価するために,エンド・ツー・エンド音声ベンチマーク(ESB)を提案する。
論文 参考訳(メタデータ) (2022-10-24T15:58:48Z) - Audio-text Retrieval in Context [24.38055340045366]
そこで本研究では,音声・テキストのアライメントを改善するために,複数のオーディオ機能とシーケンスアグリゲーション手法について検討する。
我々は,事前学習した音声特徴と記述子に基づくアグリゲーション法を用いた文脈音声テキスト検索システムを構築した。
提案システムでは、リコール、中央値、平均値を含むすべての指標において、双方向音声テキスト検索において顕著な改善が達成されている。
論文 参考訳(メタデータ) (2022-03-25T13:41:17Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。