論文の概要: Solla: Towards a Speech-Oriented LLM That Hears Acoustic Context
- arxiv url: http://arxiv.org/abs/2503.15338v1
- Date: Wed, 19 Mar 2025 15:34:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:22:29.558004
- Title: Solla: Towards a Speech-Oriented LLM That Hears Acoustic Context
- Title(参考訳): Solla: 音環境を聴く音声指向LLMを目指して
- Authors: Junyi Ao, Dekun Chen, Xiaohai Tian, Wenjie Feng, Jun Zhang, Lu Lu, Yuxuan Wang, Haizhou Li, Zhizheng Wu,
- Abstract要約: 本稿では,音声に基づく質問を理解し,そのコンテキストを同時に聴くように設計された新しいフレームワークであるSollaを紹介する。
Sollaには、音声イベントを効果的に識別し表現するためのオーディオタグモジュールと、音声コンテンツの理解を改善するためのASR支援予測手法が組み込まれている。
本稿では,音声イベント分類,音声キャプション,音声質問応答の3つのタスクを含むSA-Evalというベンチマークデータセットを提案する。
- 参考スコア(独自算出の注目度): 45.56363286769136
- License:
- Abstract: Large Language Models (LLMs) have recently shown remarkable ability to process not only text but also multimodal inputs such as speech and audio. However, most existing models primarily focus on analyzing input signals using text instructions, overlooking scenarios in which speech instructions and audio are mixed and serve as inputs to the model. To address these challenges, we introduce Solla, a novel framework designed to understand speech-based questions and hear the acoustic context concurrently. Solla incorporates an audio tagging module to effectively identify and represent audio events, as well as an ASR-assisted prediction method to improve comprehension of spoken content. To rigorously evaluate Solla and other publicly available models, we propose a new benchmark dataset called SA-Eval, which includes three tasks: audio event classification, audio captioning, and audio question answering. SA-Eval has diverse speech instruction with various speaking styles, encompassing two difficulty levels, easy and hard, to capture the range of real-world acoustic conditions. Experimental results show that Solla performs on par with or outperforms baseline models on both the easy and hard test sets, underscoring its effectiveness in jointly understanding speech and audio.
- Abstract(参考訳): 近年,Large Language Models (LLMs) はテキストだけでなく,音声や音声などのマルチモーダル入力も処理可能であることが明らかになった。
しかし、既存のほとんどのモデルは、主にテキスト命令を用いて入力信号を解析することに焦点を当てており、音声命令と音声が混在し、モデルへの入力として機能するシナリオを見渡している。
これらの課題に対処するため,Sollaは音声に基づく質問を理解し,音環境を同時に聴くように設計された新しいフレームワークである。
Sollaには、音声イベントを効果的に識別し表現するためのオーディオタグモジュールと、音声コンテンツの理解を改善するためのASR支援予測手法が組み込まれている。
本稿では,Sollaなどの公開モデルを評価するために,音声イベント分類,音声キャプション,音声質問応答の3つのタスクを含むSA-Evalというベンチマークデータセットを提案する。
SA-Evalは様々な話し方で多様な音声指導を行い、現実の音響条件を捉えるのに難易度と難易度という2つの難易度を包含している。
実験結果から,Sollaは,難易度と難易度の両方で,ベースラインモデルと同等あるいは同等に動作し,音声と音声を協調的に理解する上での有効性を実証した。
関連論文リスト
- ADIFF: Explaining audio difference using natural language [31.963783032080993]
本稿では,音声の違いを説明するタスクを包括的に研究し,そのタスクのベースラインであるベンチマークを提案する。
本稿では,AudioCaps と Clotho の音声キャプションデータセットから得られた音声差分説明のための2つの新しいデータセットを提案する。
提案するADIFFは, クロスプロジェクションモジュール, 位置キャプション, 3段階のトレーニングプロセスを導入し, 詳細な説明を行う能力を向上させる。
論文 参考訳(メタデータ) (2025-02-06T20:00:43Z) - VoxEval: Benchmarking the Knowledge Understanding Capabilities of End-to-End Spoken Language Models [32.086847480051084]
本稿では、純粋音声対話による知識理解を評価する新しいSpeechQAベンチマークであるVoxEvalを提案する。
本ベンチマーク1は,入力と出力の両方の音声形式を維持し,2)多様な入力音声条件のモデルロバスト性を評価し,3)音声形式における数学的推論のような複雑なタスクの評価を先駆する。
論文 参考訳(メタデータ) (2025-01-09T04:30:12Z) - Zero-Shot Audio Captioning via Audibility Guidance [57.70351255180495]
音声のキャプションのためのデシラタを3つ提案する -- (i) 生成したテキストの流布, (ii) 生成したテキストを入力オーディオに忠実さ, (iii) 可聴性。
本手法はゼロショット法であり,キャプションの実行を学習していない。
本稿では,AudioCapデータセットを用いて,聴力指導がベースラインと比較して性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:45:58Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Joint Speech Recognition and Audio Captioning [37.205642807313545]
室内と屋外の両方で録音された音声サンプルは、しばしば二次音源で汚染される。
自動音声キャプション(AAC)の進展する分野と、徹底的に研究された自動音声認識(ASR)を一体化することを目的としている。
本稿では,ASRタスクとAACタスクのエンドツーエンド共同モデリングのためのいくつかのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-03T04:42:43Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。