論文の概要: WEST: LLM based Speech Toolkit for Speech Understanding, Generation, and Interaction
- arxiv url: http://arxiv.org/abs/2509.19902v1
- Date: Wed, 24 Sep 2025 08:56:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.750099
- Title: WEST: LLM based Speech Toolkit for Speech Understanding, Generation, and Interaction
- Title(参考訳): WEST:LLMによる音声理解・生成・対話のための音声ツールキット
- Authors: Binbin Zhang, Chengdong Liang, Shuai Wang, Xuelong Geng, Zhao Guo, Haoyu Li, Hao Yin, Xipeng Yang, Pengshen Zhang, Changwei Ma, Lei Xie,
- Abstract要約: Westは、音声理解、生成、相互作用のための大規模言語モデル(LLM)に基づく音声ツールキットである。
認識、合成、理解、対話、マルチモーダル機能といったタスクをサポートする。
Westは2種類のレシピ、モデル、実験結果を提供している。
- 参考スコア(独自算出の注目度): 30.33108584444177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present WEST(WE Speech Toolkit), a speech toolkit based on a large language model (LLM) for speech understanding, generation, and interaction. There are three key features of WEST: 1) Fully LLM-based: Standing on the shoulders of giants by reusing mature architectures, ecosystems (e.g., Hugging Face), and methods (e.g., sequence packing) from large models. 2) Full-stack: Supports tasks such as recognition, synthesis, understanding, dialogue, and multimodal capabilities, with extensibility to incorporate open-source models. 3) Simple and Stupid: A simple and stupid speech toolkit that everyone can Touch. In addition, WEST provides two types of recipes, models, and experimental results. The first is entirely based on open-source models and open-source data, allowing users to fully reproduce the experiments in this paper and serving as a verification system or minimal system baseline. The second is trained on massive data, offering superior performance so the user can directly apply it out of the box. WEST is publicly avilable at https://github.com/wenet-e2e/west/
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)に基づく音声ツールキットであるWEST(WE Speech Toolkit)について述べる。
WESTには3つの重要な特徴がある。
1) 完全なLCMベース: 成熟したアーキテクチャ、エコシステム(例えばHugging Face)、大規模モデルからのメソッド(例えばシーケンスパッキング)を再利用することで、巨人の肩に立つ。
2) フルスタック: 認識,合成,理解,対話,マルチモーダル機能といったタスクをサポートする。
3) シンプルで頑固な: 誰でもタッチできるシンプルで愚かなスピーチツールキット。
さらに、WESTは2種類のレシピ、モデル、実験結果を提供する。
1つ目は、完全にオープンソースモデルとオープンソースデータに基づいており、ユーザーは本論文で実験を完全再現し、検証システムまたは最小限のシステムベースラインとして機能することができる。
2つ目は、大量のデータに基づいてトレーニングされ、パフォーマンスが優れているため、ユーザはすぐにそれを適用できる。
WEST は https://github.com/wenet-e2e/west/
関連論文リスト
- OpenS2S: Advancing Fully Open-Source End-to-End Empathetic Large Speech Language Model [47.84522683404745]
我々は,共感型音声対話を実現するために設計された,完全にオープンソースで透明でエンドツーエンドのLSLMであるOpenS2Sを提案する。
我々の共感型音声テキストモデルBLSP-Emoに基づいて、OpenS2Sは低レイテンシ音声生成を実現するためにストリーミングインターリーブデコードアーキテクチャを用いる。
大規模言語モデルを利用して共感的コンテンツを生成し,テキスト音声システムを制御することにより,多言語多言語多様度を有するスケーラブルな学習コーパスを構築する。
論文 参考訳(メタデータ) (2025-07-07T16:31:37Z) - Nexus: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [50.23246260804145]
本研究は, 聴覚, 視覚, 言語的モダリティを統合した, 産業レベルのOmni-Modal Large Language Model (LLM) パイプラインを提案する。
まず、様々なエンコーダ-LLM-デコーダアーキテクチャの柔軟な構成を可能にするモジュラーフレームワークです。
第二に、最先端のビジョン言語モデルであるQwen2.5-VLのオーディオ言語アライメントを事前訓練する軽量なトレーニング戦略である。
第三に、様々な現実世界のシナリオから高品質な音声テキストデータを生成するオーディオ合成パイプライン。
論文 参考訳(メタデータ) (2025-02-26T17:26:36Z) - ESPnet-SpeechLM: An Open Speech Language Model Toolkit [98.4525334631522]
音声言語モデル(SpeechLMs)の開発を民主化するオープンツールキットであるESPnet-SpeechLMを提案する。
このツールキットは、音声処理タスクを普遍的な逐次モデリング問題としてフレーミングすることで標準化する。
ESPnet-SpeechLMを使用すると、ユーザーはタスクテンプレートを簡単に定義し、キー設定を設定することができ、シームレスで合理化されたSpeechLM開発が可能になる。
論文 参考訳(メタデータ) (2025-02-21T05:21:58Z) - Recent Advances in Speech Language Models: A Survey [45.968078636811356]
音声言語モデル(SpeechLMs)は、テキストから変換することなく音声を生成するエンドツーエンドモデルである。
本稿では,近年のSpeechLM構築手法について概観する。
論文 参考訳(メタデータ) (2024-10-01T21:48:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。