論文の概要: WEST: LLM based Speech Toolkit for Speech Understanding, Generation, and Interaction
- arxiv url: http://arxiv.org/abs/2509.19902v2
- Date: Wed, 29 Oct 2025 07:17:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.184899
- Title: WEST: LLM based Speech Toolkit for Speech Understanding, Generation, and Interaction
- Title(参考訳): WEST:LLMによる音声理解・生成・対話のための音声ツールキット
- Authors: Binbin Zhang, Chengdong Liang, Shuai Wang, Xuelong Geng, Zhao Guo, Haoyu Li, Hao Yin, Xipeng Yang, Pengshen Zhang, Changwei Ma, Lei Xie,
- Abstract要約: Westは、音声理解、生成、相互作用のための大規模言語モデル(LLM)に基づく音声ツールキットである。
認識、合成、理解、対話、マルチモーダル機能といったタスクをサポートする。
Westは2種類のレシピ、モデル、実験結果を提供している。
- 参考スコア(独自算出の注目度): 30.33108584444177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present WEST(WE Speech Toolkit), a speech toolkit based on a large language model (LLM) for speech understanding, generation, and interaction. There are three key features of WEST: 1) Fully LLM-based: Standing on the shoulders of giants by reusing mature architectures, ecosystems (e.g., Hugging Face), and methods (e.g., sequence packing) from large models. 2) Full-stack: Supports tasks such as recognition, synthesis, understanding, dialogue, and multimodal capabilities, with extensibility to incorporate open-source models. 3) Simple and Stupid: A simple and stupid speech toolkit that everyone can Touch. In addition, WEST provides two types of recipes, models, and experimental results. The first is entirely based on open-source models and open-source data, allowing users to fully reproduce the experiments in this paper and serving as a verification system or minimal system baseline. The second is trained on massive data, offering superior performance so the user can directly apply it out of the box. WEST is publicly avilable at https://github.com/wenet-e2e/west/
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)に基づく音声ツールキットであるWEST(WE Speech Toolkit)について述べる。
WESTには3つの重要な特徴がある。
1) 完全なLCMベース: 成熟したアーキテクチャ、エコシステム(例えばHugging Face)、大規模モデルからのメソッド(例えばシーケンスパッキング)を再利用することで、巨人の肩に立つ。
2) フルスタック: 認識,合成,理解,対話,マルチモーダル機能といったタスクをサポートする。
3) シンプルで頑固な: 誰でもタッチできるシンプルで愚かなスピーチツールキット。
さらに、WESTは2種類のレシピ、モデル、実験結果を提供する。
1つ目は、完全にオープンソースモデルとオープンソースデータに基づいており、ユーザーは本論文で実験を完全再現し、検証システムまたは最小限のシステムベースラインとして機能することができる。
2つ目は、大量のデータに基づいてトレーニングされ、パフォーマンスが優れているため、ユーザはすぐにそれを適用できる。
WEST は https://github.com/wenet-e2e/west/
関連論文リスト
- OpenS2S: Advancing Fully Open-Source End-to-End Empathetic Large Speech Language Model [47.84522683404745]
我々は,共感型音声対話を実現するために設計された,完全にオープンソースで透明でエンドツーエンドのLSLMであるOpenS2Sを提案する。
我々の共感型音声テキストモデルBLSP-Emoに基づいて、OpenS2Sは低レイテンシ音声生成を実現するためにストリーミングインターリーブデコードアーキテクチャを用いる。
大規模言語モデルを利用して共感的コンテンツを生成し,テキスト音声システムを制御することにより,多言語多言語多様度を有するスケーラブルな学習コーパスを構築する。
論文 参考訳(メタデータ) (2025-07-07T16:31:37Z) - OpusLM: A Family of Open Unified Speech Language Models [56.14140121061921]
OpusLMは、213K時間の音声テキストペアと292Bのテキスト専用トークンで継続的に事前トレーニングされている。
本稿では,トークン化,マルチストリーム言語モデル,マルチステージトレーニング戦略に関するSpeechLMの設計について述べる。
論文 参考訳(メタデータ) (2025-06-21T06:30:59Z) - Tevatron 2.0: Unified Document Retrieval Toolkit across Scale, Language, and Modality [74.59049806800176]
このデモペーパーでは、Tevatronツールキットの重要な特徴、学界と産業の橋渡しについて取り上げている。
強い多言語・多モーダルな有効性を実現するための密集型検索器について紹介する。
私たちはOmniEmbedもリリースしています。私たちの知る限り、テキスト、画像ドキュメント、ビデオ、オーディオ検索を統一する最初の埋め込みモデルです。
論文 参考訳(メタデータ) (2025-05-05T08:52:49Z) - Nexus: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [50.23246260804145]
本研究は, 聴覚, 視覚, 言語的モダリティを統合した, 産業レベルのOmni-Modal Large Language Model (LLM) パイプラインを提案する。
まず、様々なエンコーダ-LLM-デコーダアーキテクチャの柔軟な構成を可能にするモジュラーフレームワークです。
第二に、最先端のビジョン言語モデルであるQwen2.5-VLのオーディオ言語アライメントを事前訓練する軽量なトレーニング戦略である。
第三に、様々な現実世界のシナリオから高品質な音声テキストデータを生成するオーディオ合成パイプライン。
論文 参考訳(メタデータ) (2025-02-26T17:26:36Z) - ESPnet-SpeechLM: An Open Speech Language Model Toolkit [98.4525334631522]
音声言語モデル(SpeechLMs)の開発を民主化するオープンツールキットであるESPnet-SpeechLMを提案する。
このツールキットは、音声処理タスクを普遍的な逐次モデリング問題としてフレーミングすることで標準化する。
ESPnet-SpeechLMを使用すると、ユーザーはタスクテンプレートを簡単に定義し、キー設定を設定することができ、シームレスで合理化されたSpeechLM開発が可能になる。
論文 参考訳(メタデータ) (2025-02-21T05:21:58Z) - Recent Advances in Speech Language Models: A Survey [45.968078636811356]
音声言語モデル(SpeechLMs)は、テキストから変換することなく音声を生成するエンドツーエンドモデルである。
本稿では,近年のSpeechLM構築手法について概観する。
論文 参考訳(メタデータ) (2024-10-01T21:48:12Z) - BESTOW: Efficient and Streamable Speech Language Model with the Best of Two Worlds in GPT and T5 [25.644228338604815]
我々は,TwO Worlds の BESt 機能を高効率でマルチタスク能力の強い単一モデルに組み込むための BESTOW アーキテクチャを提案する。
我々は,ストリーム可能なSpeechLLMを読み書きポリシ問題として再構成し,BESTOWアーキテクチャを用いてオフラインおよびストリーミング研究を統合する。
論文 参考訳(メタデータ) (2024-06-28T14:40:03Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Textually Pretrained Speech Language Models [107.10344535390956]
本稿では、事前訓練されたテキスト言語モデルからウォームスタートを用いたSpeechLMの訓練方法であるTWISTを提案する。
我々は、TWISTがボード全体のコールドスタートSpeechLMより優れる自動評価と人的評価の両方を用いて示す。
論文 参考訳(メタデータ) (2023-05-22T13:12:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。