論文の概要: Speech Tokenizer is Key to Consistent Representation
- arxiv url: http://arxiv.org/abs/2507.06802v1
- Date: Wed, 09 Jul 2025 12:43:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.582494
- Title: Speech Tokenizer is Key to Consistent Representation
- Title(参考訳): 音声トケナイザは一貫性表現の鍵となる
- Authors: Wonjin Jung, Sungil Kang, Dong-Yeon Cho,
- Abstract要約: 音声のトークン化はデジタル音声処理において重要であり、連続した音声信号を様々な計算タスクのための離散単位に変換する。
本稿では,言語情報と音響情報の両方を同時に符号化し,韻律的・感情的な内容を保存する高度アプローチを提案する。
経験的評価は、追加の訓練を必要とせず、音声符号化、音声変換、感情認識、多モーダル言語モデリングにおいてその効果を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Speech tokenization is crucial in digital speech processing, converting continuous speech signals into discrete units for various computational tasks. This paper introduces a novel speech tokenizer with broad applicability across downstream tasks. While recent advances in residual vector quantization (RVQ) have incorporated semantic elements, they often neglect critical acoustic features. We propose an advanced approach that simultaneously encodes both linguistic and acoustic information, preserving prosodic and emotional content. Our method significantly enhances speech representation fidelity across diverse applications. Empirical evaluations demonstrate its effectiveness in speech coding, voice conversion, emotion recognition, and multimodal language modeling, without requiring additional training. This versatility underscores its potential as a key tool for advancing AI-driven speech processing.
- Abstract(参考訳): 音声のトークン化はデジタル音声処理において重要であり、連続した音声信号を様々な計算タスクのための離散単位に変換する。
本稿では,下流タスクに適用可能な新しい音声トークン化手法を提案する。
近年の残留ベクトル量子化(RVQ)には意味的要素が組み込まれているが、重要な音響的特徴は無視されることが多い。
本稿では,言語情報と音響情報の両方を同時に符号化し,韻律的・感情的な内容を保存する高度アプローチを提案する。
本手法は多種多様なアプリケーションにおける音声表現の忠実度を大幅に向上させる。
経験的評価は、追加の訓練を必要とせず、音声符号化、音声変換、感情認識、多モーダル言語モデリングにおいてその効果を示す。
この汎用性は、AI駆動の音声処理を前進させる重要なツールとしての可能性を強調している。
関連論文リスト
- ProsodyLM: Uncovering the Emerging Prosody Processing Capabilities in Speech Language Models [70.56468982313834]
本稿では,韻律学習に適した単純なトークン化方式であるProsodyLMを提案する。
ProsodyLMは事前学習だけで驚くほど多様なプロソディ処理能力を学習できることがわかった。
論文 参考訳(メタデータ) (2025-07-27T00:59:01Z) - Speech-Language Models with Decoupled Tokenizers and Multi-Token Prediction [58.55905182336196]
音声合成モデル(SLM)は、音声とテキストの理解と生成を統一するための有望な経路を提供する。
本研究では,SLMの性能に及ぼすキーコンポーネント(音声トークン化,音声ヘッド,話者モデルなど)の影響について検討する。
論文 参考訳(メタデータ) (2025-06-14T15:26:31Z) - Discrete Audio Tokens: More Than a Survey! [107.69720675124255]
本稿では,離散型音声トークンの体系的レビューとベンチマークを行う。
音声、音楽、一般的なオーディオドメインをカバーしている。
本稿では,エンコーダデコーダ,量子化技術,トレーニングパラダイム,ストリーム性,アプリケーションドメインに基づくトークン化アプローチの分類法を提案する。
論文 参考訳(メタデータ) (2025-06-12T01:35:43Z) - Universal Speech Token Learning via Low-Bitrate Neural Codec and Pretrained Representations [23.059241057567956]
本稿では,2種類のトークンを統一し,音声のすべての意味をカプセル化する普遍的な音声トークン学習UniCodecを提案する。
低ビットレートのニューラルは、グローバルスケールとローカルスケールでこのような非交叉離散表現を学習するために利用され、自己教師付き学習特徴から知識を抽出する。
論文 参考訳(メタデータ) (2025-03-15T12:50:43Z) - InSerter: Speech Instruction Following with Unsupervised Interleaved Pre-training [23.330297074014315]
本稿では,Interleaved Speech-Text Representation Pre-trainingの略であるInSerterという,シンプルでスケーラブルなトレーニング手法を提案する。
InSerterは、大規模な教師なし音声テキストシーケンスを事前訓練するために設計されており、テキストから音声への変換を用いて、広範テキストコーパスのランダムに選択されたセグメントから音声を合成する。
提案したInSerterは、SpeechInstructBenchにおけるSOTA性能を実現し、多様な音声処理タスクにおいて、優れた、あるいは競争的な結果を示す。
論文 参考訳(メタデータ) (2025-03-04T16:34:14Z) - DM-Codec: Distilling Multimodal Representations for Speech Tokenization [11.433520275513803]
DM-Codecは文脈情報を含む言語モデル誘導蒸留法である。
WERは13.46%まで低下し、WILは9.82%、音声品質は5.84%向上し、LibriSpeechベンチマークデータセットでは1.85%向上した。
論文 参考訳(メタデータ) (2024-10-19T07:14:14Z) - SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。
音声処理タスクを音声単位生成タスクに再構成する。
提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文 参考訳(メタデータ) (2024-08-23T13:00:10Z) - dMel: Speech Tokenization made Simple [16.679015298503593]
そこで本研究では,メルフィルタバンクチャネルを離散化した新しい音声表現(dmel)を提案する。
提案手法は, 音声コンテンツの保存, ドメイン外データの堅牢性, 学習自由, 自然, ストリーム可能な表現の両面において, 優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-22T17:51:53Z) - DASB -- Discrete Audio and Speech Benchmark [12.02056212008393]
我々は、様々なタスクで離散オーディオトークンをベンチマークするためのリーダーボードである、離散オーディオおよび音声ベンチマーク(DASB)をリリースする。
その結果, 意味トークンは, 識別的, 生成的タスクにおいて, 圧縮トークンよりも優れていた。
しかし、セマンティックトークンと標準的な連続表現の間のパフォーマンスのギャップは依然として大きい。
論文 参考訳(メタデータ) (2024-06-20T13:23:27Z) - SpeechFormer++: A Hierarchical Efficient Framework for Paralinguistic
Speech Processing [17.128885611538486]
パラ言語音声処理は、感情分析や神経認知障害分析などの多くの問題に対処する上で重要である。
音声の特徴を考察し、パラ言語音声処理のための一般的な構造ベースフレームワークであるSpeechFormer++を提案する。
SpeechFormer++は、音声感情認識(IEMOCAP & MELD)、うつ病分類(DAIC-WOZ)、アルツハイマー病検出(Pitt)タスクに基づいて評価される。
論文 参考訳(メタデータ) (2023-02-27T11:48:54Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。