Fugu-MT 論文翻訳(概要): Improving Spoken Language Modeling with Phoneme Classification: A Simple Fine-tuning Approach

論文の概要: Improving Spoken Language Modeling with Phoneme Classification: A Simple Fine-tuning Approach

arxiv url: http://arxiv.org/abs/2410.00025v1
Date: Wed, 30 Oct 2024 17:46:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-05 15:29:12.967104
Title: Improving Spoken Language Modeling with Phoneme Classification: A Simple Fine-tuning Approach
Title（参考訳）: 音素分類による音声言語モデルの改良:簡単な微調整アプローチ
Authors: Maxime Poli, Emmanuel Chemla, Emmanuel Dupoux,
Abstract要約: 音声言語モデリングの最近の進歩は、音声から直接学習言語が実現可能であることを実証している。音素分類に基づく微調整音声表現モデルにより、より文脈不変な表現が得られることを示す。
参考スコア（独自算出の注目度）: 14.5696754689252
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent progress in Spoken Language Modeling has demonstrated the feasibility of learning language directly from speech. Generating speech through a pipeline that operates at the text level typically loses nuances, intonations, and non-verbal vocalizations. Modeling directly from speech opens up the path to more natural and expressive systems. On the other hand, speech-only systems tend to trail behind text-based language models in terms of their semantic abilities. We show that fine-tuning speech representation models on phoneme classification leads to more context-invariant representations, which in turn improve downstream language modeling performance.
Abstract（参考訳）: 音声言語モデリングの最近の進歩は、音声から直接学習言語が実現可能であることを実証している。テキストレベルで動作するパイプラインを通して音声を生成する場合、通常、ニュアンス、イントネーション、非言語発声が失われる。音声から直接のモデリングは、より自然で表現力のあるシステムへの道を開く。一方、音声のみのシステムは、意味的能力の観点からテキストベースの言語モデルに追従する傾向にある。音素分類に基づく微調整音声表現モデルにより、文脈不変表現がより多くなり、ダウンストリーム言語モデリング性能が向上することを示す。

関連論文リスト

MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance [66.74042564585942]
MOSS-Speechは、テキストガイダンスに頼ることなく直接理解し、音声を生成する、真の音声音声合成大言語モデルである。我々の研究は、表現的かつ効率的なエンドツーエンドの音声対話のための新しいパラダイムを確立する。
論文参考訳（メタデータ） (2025-10-01T04:32:37Z)
ProsodyLM: Uncovering the Emerging Prosody Processing Capabilities in Speech Language Models [70.56468982313834]
本稿では,韻律学習に適した単純なトークン化方式であるProsodyLMを提案する。 ProsodyLMは事前学習だけで驚くほど多様なプロソディ処理能力を学習できることがわかった。
論文参考訳（メタデータ） (2025-07-27T00:59:01Z)
Enhancing Spoken Discourse Modeling in Language Models Using Gestural Cues [56.36041287155606]
本研究では,人間の動作系列と言語を用いたジェスチャーの協調モデリングにより,音声談話モデルの改善が期待できるかどうかを考察する。ジェスチャーを言語モデルに統合するために,まずVQ-VAEを用いて3次元の人間の動作シーケンスを離散的なジェスチャートークンに符号化する。その結果,ジェスチャを組み込むことで,3つのタスクのマーカー予測精度が向上した。
論文参考訳（メタデータ） (2025-03-05T13:10:07Z)
Scaling Speech-Text Pre-training with Synthetic Interleaved Data [31.77653849518526]
音声言語モデル(SpeechLM)は音声入力を受け入れ、音声出力を生成し、より自然な人間とコンピュータの相互作用を可能にする。従来のSpeechLMの開発手法は、教師なし音声データとパラレル音声テキストデータの可用性の制限によって制約されている。本稿では,テキストコーパスから得られた大規模合成インターリーブデータを活用することによって,音声テキスト事前学習のスケールアップを行う手法を提案する。
論文参考訳（メタデータ） (2024-11-26T17:19:09Z)
Sylber: Syllabic Embedding Representation of Speech from Raw Audio [25.703703711031178]
クリーンでロバストな音節構造を持つ音声表現を生成する新モデルSylberを提案する。具体的には,教師モデルの指数移動平均である教師モデルから抽出した音節セグメントの特徴を回帰する自己教師型モデルを提案する。 1) 高速で線形な音節分割アルゴリズム,2) 平均4.27トークン毎の効率的な音節トークン化,3) 語彙的・構文的理解に適した音節単位。
論文参考訳（メタデータ） (2024-10-09T17:59:04Z)
Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文参考訳（メタデータ） (2024-09-30T07:01:21Z)
EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions [152.41217651729738]
GPT-4oは、多様な感情や声調を持つ声の会話を可能にするオムニモーダルモデルである。本研究では,エンド・ツー・エンドの音声機能を備えた大規模言語モデルを実現するためのEMOVAを提案する。 EMOVAは、視覚言語と音声のベンチマークの両方で最先端のパフォーマンスを初めて達成した。
論文参考訳（メタデータ） (2024-09-26T16:44:02Z)
dMel: Speech Tokenization made Simple [19.169460770473908]
メル-フィルターバンクチャネルを離散強度ビンに分割すると、単純な表現(dMel)が生成されることを示す。本結果は,dMelが統合されたフレームワーク内の両方のタスクにおいて高い性能を実現する上で有効であることを示す。
論文参考訳（メタデータ） (2024-07-22T17:51:53Z)
DeSTA: Enhancing Speech Language Models through Descriptive Speech-Text Alignment [82.86363991170546]
本稿では、音声キャプションを利用して音声とテキストのモダリティのギャップを埋める記述型音声テキストアライメント手法を提案する。我々のモデルはDynamic-SUPERBベンチマークで優れた性能を示し、特に目に見えないタスクに一般化する。これらの知見は、説明豊かな音声キャプションを組み込むことにより、指示追従型SLMを再構築する可能性を強調した。
論文参考訳（メタデータ） (2024-06-27T03:52:35Z)
Natural language guidance of high-fidelity text-to-speech with synthetic annotations [13.642358232817342]
本稿では,話者識別,スタイル,記録条件の様々な側面をラベル付けするスケーラブルな手法を提案する。次に、この手法を45k時間データセットに適用し、音声言語モデルを訓練する。その結果, アクセント, 韻律スタイル, チャネル条件, 音響条件の多岐にわたる高忠実度音声生成が得られた。
論文参考訳（メタデータ） (2024-02-02T21:29:34Z)
Few-Shot Spoken Language Understanding via Joint Speech-Text Models [18.193191170754744]
テキストと協調的に事前学習した音声表現モデルに関する最近の研究は、音声表現の改善の可能性を示している。このような共有表現を活用して、音声言語理解タスクにおける限られたデータ可用性の持続的課題に対処する。事前訓練された音声テキストモデルを用いることで、テキスト上で微調整されたモデルを音声テストデータに効果的に転送できることが分かる。
論文参考訳（メタデータ） (2023-10-09T17:59:21Z)
Adaptive Knowledge Distillation between Text and Speech Pre-trained Models [30.125690848883455]
先行インフォームド・アダプティブ・ナレッジ蒸留(PAD)は他のメートル法に基づく蒸留法よりも言語知識の伝達に効果的である。本稿では,テキストと音声の埋め込み空間を少量のデータで整列させるため,メートル法に基づく蒸留について検討する。我々は,3つの音声言語理解ベンチマークを用いて,PADが他のメートル法に基づく蒸留法よりも言語知識の伝達に有効であることを示す。
論文参考訳（メタデータ） (2023-03-07T02:31:57Z)
Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文参考訳（メタデータ） (2022-05-21T16:52:57Z)
Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文参考訳（メタデータ） (2021-06-11T20:15:21Z)
Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文参考訳（メタデータ） (2020-10-28T12:33:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。