論文の概要: LongAudio-RAG: Event-Grounded Question Answering over Multi-Hour Long Audio
- arxiv url: http://arxiv.org/abs/2602.14612v1
- Date: Mon, 16 Feb 2026 10:15:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.365827
- Title: LongAudio-RAG: Event-Grounded Question Answering over Multi-Hour Long Audio
- Title(参考訳): LongAudio-RAG:複数時間音声によるイベント周囲質問応答
- Authors: Naveen Vakada, Kartik Hegde, Arvind Krishna Sridhar, Yinyi Guo, Erik Visser,
- Abstract要約: LongAudio Generation (LARAG) は、Large Language Model (LLM) が取得した、タイムスタンプ付き音響イベント検出において出力する基盤となるフレームワークである。
ハイブリッドエッジクラウド環境にデプロイすることで,このアプローチの実践性を実証する。
イベントレベルの構造的検索は,バニラ検索よりも精度が向上することが示された。
- 参考スコア(独自算出の注目度): 6.935416517354558
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-duration audio is increasingly common in industrial and consumer settings, yet reviewing multi-hour recordings is impractical, motivating systems that answer natural-language queries with precise temporal grounding and minimal hallucination. Existing audio-language models show promise, but long-audio question answering remains difficult due to context-length limits. We introduce LongAudio-RAG (LA-RAG), a hybrid framework that grounds Large Language Model (LLM) outputs in retrieved, timestamped acoustic event detections rather than raw audio. Multi-hour streams are converted into structured event records stored in an SQL database, and at inference time the system resolves natural-language time references, classifies intent, retrieves only the relevant events, and generates answers using this constrained evidence. To evaluate performance, we construct a synthetic long-audio benchmark by concatenating recordings with preserved timestamps and generating template-based question-answer pairs for detection, counting, and summarization tasks. Finally, we demonstrate the practicality of our approach by deploying it in a hybrid edge-cloud environment, where the audio grounding model runs on-device on IoT-class hardware while the LLM is hosted on a GPU-backed server. This architecture enables low-latency event extraction at the edge and high-quality language reasoning in the cloud. Experiments show that structured, event-level retrieval significantly improves accuracy compared to vanilla Retrieval-Augmented Generation (RAG) or text-to-SQL approaches.
- Abstract(参考訳): 長期オーディオは、産業や消費者の環境ではますます一般的になっているが、複数時間録音のレビューは、正確な時間的根拠と最小限の幻覚で自然言語クエリに応答する、実用的でない動機付けシステムである。
既存の音声言語モデルは将来性を示すが、文脈長の制限のため、長音の質問応答は難しいままである。
本稿では,LongAudio-RAG(LA-RAG)について紹介する。
マルチ時間ストリームは、SQLデータベースに格納された構造化されたイベントレコードに変換され、推論時にシステムが自然言語の時間参照を解決し、意図を分類し、関連するイベントのみを検索し、この制約されたエビデンスを使用して回答を生成する。
記録を保存したタイムスタンプと結合し,テンプレートベースの質問応答ペアを生成し,検出,カウント,要約タスクを生成することで,合成ロングオーディオベンチマークを構築した。
最後に、LLMがGPUベースのサーバ上でホストされている間、オーディオグラウンドモデルがIoTクラスのハードウェア上でデバイス上で実行されるハイブリッドエッジクラウド環境にデプロイすることで、このアプローチの実践性を実証する。
このアーキテクチャにより、エッジでの低レイテンシイベント抽出と、クラウドにおける高品質な言語推論が可能になる。
実験により、構造化されたイベントレベルの検索は、バニラ検索拡張生成(RAG)やテキストからSQLへのアプローチと比較して、精度が大幅に向上することが示された。
関連論文リスト
- AudioMarathon: A Comprehensive Benchmark for Long-Context Audio Understanding and Efficiency in Audio LLMs [53.248502396225724]
AudioMarathonは、ロングフォームオーディオの理解と推論の効率を評価するために設計されたベンチマークである。
我々は、最先端のLALMを評価し、音声の長さが大きくなるにつれて、明らかな性能低下を観察する。
その結果、現在のLALM間での大きなギャップが示され、時間的推論の改善の必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-10-08T17:50:16Z) - Beamforming-LLM: What, Where and When Did I Miss? [0.6655749439594806]
本研究では,マルチスピーカ環境において欠落した会話を意味的にリコールするシステムであるBeamforming-LLMを提案する。
このシステムは、マイクロホンアレイを用いた空間オーディオキャプチャと、検索拡張生成(RAG)を組み合わせて、自然言語クエリをサポートする。
論文 参考訳(メタデータ) (2025-09-07T21:52:26Z) - Detect Any Sound: Open-Vocabulary Sound Event Detection with Multi-Modal Queries [18.147981850263708]
マルチモーダルクエリによってガイドされるオープン語彙SEDのための問合せベースのフレームワークを提案する。
DASMはSEDをフレームレベルの検索タスクとして定式化し、音声機能はテキストやオーディオプロンプトからのクエリベクトルと一致している。
DASMは、局所化精度と新しいクラスへの一般化のバランスを効果的に保ち、オープン語彙設定においてCLAPベースの手法より優れている。
論文 参考訳(メタデータ) (2025-07-22T08:24:01Z) - Long-Form Speech Generation with Spoken Language Models [64.29591880693468]
テキストなしの音声言語モデルは、数十秒を超える可読な音声を生成するのに苦労する。
我々は、長音の音声から学習し、サンプルする最初の音声言語モデルであるSpeechSSMを導出する。
SpeechSSMは線形時間列モデリングの最近の進歩を活用し、コヒーレンスと効率性において現在のトランスフォーマー音声LMを大幅に上回っている。
論文 参考訳(メタデータ) (2024-12-24T18:56:46Z) - Enhancing Temporal Understanding in Audio Question Answering for Large Audio Language Models [0.9285295512807729]
AQA(Audio Question Answering)タスクには、オーディオイベント分類、オーディオキャプション、オープンエンド推論が含まれる。
LALMは一般的な音声理解では優れているが、時間的推論では限られている。
本稿では,音声時間的推論におけるこれらの課題と限界について述べる。
論文 参考訳(メタデータ) (2024-09-10T05:26:53Z) - Leveraging Language Model Capabilities for Sound Event Detection [10.792576135806623]
本稿では,音声イベントとその時間的位置を同時に生成しながら,音声特徴を理解するためのエンドツーエンドフレームワークを提案する。
具体的には、事前学習された音響モデルを用いて、異なるカテゴリーにわたる識別的特徴を捉え、自動回帰テキスト生成のための言語モデルを用いる。
論文 参考訳(メタデータ) (2023-08-22T15:59:06Z) - Separate Anything You Describe [53.30484933564858]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。