論文の概要: OSUM: Advancing Open Speech Understanding Models with Limited Resources in Academia
- arxiv url: http://arxiv.org/abs/2501.13306v2
- Date: Sun, 16 Feb 2025 08:03:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:01:31.849727
- Title: OSUM: Advancing Open Speech Understanding Models with Limited Resources in Academia
- Title(参考訳): OSUM: アカデミアにおける限られたリソースによるオープン音声理解モデルの改善
- Authors: Xuelong Geng, Kun Wei, Qijie Shao, Shuiyun Liu, Zhennan Lin, Zhixian Zhao, Guojian Li, Wenjie Tian, Peikun Chen, Yangze Li, Pengcheng Guo, Mingchen Shao, Shuiyuan Wang, Yuang Cao, Chengyou Wang, Tianyi Xu, Yuhang Dai, Xinfa Zhu, Yue Li, Li Zhang, Lei Xie,
- Abstract要約: 我々は,制約のある学術リソースの下でSLUMを訓練する可能性を検討するために,オープン音声理解モデルOSUMを提案する。
OSUMモデルは、WhisperエンコーダとQwen2 LLMを組み合わせて、音声認識(ASR)、タイムスタンプによる音声認識(SRWT)、音声イベント検出(VED)、音声感情認識(SER)、音声スタイル認識(SSR)、話者性別分類(SGC)、話者年齢予測(SAP)、音声テキストチャット(STTC)など、幅広い音声タスクをサポートする。
- 参考スコア(独自算出の注目度): 18.661797258760974
- License:
- Abstract: Large Language Models (LLMs) have made significant progress in various downstream tasks, inspiring the development of Speech Understanding Language Models (SULMs) to enable comprehensive speech-based interactions. However, most advanced SULMs are developed by the industry, leveraging large-scale datasets and computational resources that are not readily available to the academic community. Moreover, the lack of transparency in training details creates additional barriers to further innovation. In this study, we present OSUM, an Open Speech Understanding Model designed to explore the potential of training SLUMs under constrained academic resources. The OSUM model combines a Whisper encoder with a Qwen2 LLM and supports a wide range of speech tasks, including speech recognition (ASR), speech recognition with timestamps (SRWT), vocal event detection (VED), speech emotion recognition (SER), speaking style recognition (SSR), speaker gender classification (SGC), speaker age prediction (SAP), and speech-to-text chat (STTC). By employing an ASR+X training strategy, OSUM achieves efficient and stable multi-task training by simultaneously optimizing ASR alongside target tasks. Beyond delivering strong performance, OSUM emphasizes transparency by providing openly available data preparation and training methodologies, offering valuable insights and practical guidance for the academic community. By doing so, we aim to accelerate research and innovation in advanced SULM technologies.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々な下流タスクにおいて大きな進歩を遂げており、包括的な音声に基づく対話を可能にするための音声理解言語モデル(SULM)の開発を促している。
しかし、ほとんどの高度なSULMは業界によって開発されており、学術コミュニティでは利用できない大規模なデータセットと計算資源を活用している。
さらに、トレーニングの詳細における透明性の欠如は、さらなるイノベーションの障壁を生じさせます。
本研究では,制約のある学術資源下でのSLUMの学習の可能性を検討するために,オープン音声理解モデルOSUMを提案する。
OSUMモデルは、WhisperエンコーダとQwen2 LLMを組み合わせて、音声認識(ASR)、タイムスタンプによる音声認識(SRWT)、音声イベント検出(VED)、音声感情認識(SER)、音声スタイル認識(SSR)、話者性別分類(SGC)、話者年齢予測(SAP)、音声テキストチャット(STTC)など、幅広い音声タスクをサポートする。
ASR+Xトレーニング戦略を利用することで、OSUMはターゲットタスクと並行してASRを同時に最適化することにより、効率的で安定したマルチタスクトレーニングを実現する。
OSUMは、強力なパフォーマンスを提供するだけでなく、オープンに利用可能なデータ準備とトレーニングの方法論を提供することによって透明性を強調し、学術コミュニティに貴重な洞察と実践的なガイダンスを提供する。
そこで我々は,高度なSULM技術の研究と革新を加速することを目指している。
関連論文リスト
- RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Roadmap towards Superhuman Speech Understanding using Large Language Models [60.57947401837938]
大規模言語モデル(LLM)は、音声データと音声データを統合したものである。
GPT-4oのような最近の進歩は、エンドツーエンドのLLMの可能性を強調している。
本稿では,基本自動音声認識(ASR)から高度な超人モデルまで,5段階のロードマップを提案する。
論文 参考訳(メタデータ) (2024-10-17T06:44:06Z) - DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。
音声処理タスクを音声単位生成タスクに再構成する。
提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文 参考訳(メタデータ) (2024-08-23T13:00:10Z) - SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation [56.913182262166316]
CoIG(Chain-of-Information Generation)は、大規模音声生成において意味情報と知覚情報を分離する手法である。
SpeechGPT-Genはセマンティックおよび知覚情報モデリングにおいて効率的である。
ゼロショット音声変換、ゼロショット音声変換、音声音声対話に優れる。
論文 参考訳(メタデータ) (2024-01-24T15:25:01Z) - SALM: Speech-augmented Language Model with In-context Learning for
Speech Recognition and Translation [26.778332992311043]
本稿では,エム・マルチタスクとエム・イン・コンテクスト学習機能を備えた音声拡張言語モデル(SALM)を提案する。
SALMは自動音声認識(ASR)と音声翻訳(AST)のためのタスク固有のコンバータベースラインと同等の性能を達成する
論文 参考訳(メタデータ) (2023-10-13T22:07:33Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。