論文の概要: Length-Aware Rotary Position Embedding for Text-Speech Alignment
- arxiv url: http://arxiv.org/abs/2509.11084v1
- Date: Sun, 14 Sep 2025 04:25:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.906799
- Title: Length-Aware Rotary Position Embedding for Text-Speech Alignment
- Title(参考訳): テキスト音声アライメントのための長さ認識回転位置埋め込み
- Authors: Hyeongju Kim, Juheon Lee, Jinhyeok Yang, Jacob Morton,
- Abstract要約: テキスト・音声のアライメントを改善するため,RoPEの単純かつ効果的な拡張であるLARoPE(Long-Aware RoPE)を導入する。
実験の結果、LARoPEはRoPEを一貫して上回り、損失収束の高速化、テキスト音声のアライメントの精度の向上、TTS全体の品質の向上を実現している。
- 参考スコア(独自算出の注目度): 8.321525172143609
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Many recent text-to-speech (TTS) systems are built on transformer architectures and employ cross-attention mechanisms for text-speech alignment. Within these systems, rotary position embedding (RoPE) is commonly used to encode positional information in text and speech representations. In this work, we introduce length-aware RoPE (LARoPE), a simple yet effective extension of RoPE that improves text-speech alignment. Unlike RoPE, which relies on absolute indices, LARoPE computes relative distances between query and key positions using length-normalized indices. Experimental results show that LARoPE consistently outperforms RoPE, offering faster loss convergence, more accurate text-speech alignment, and higher overall TTS quality. Furthermore, LARoPE demonstrates greater resilience to variations in utterance duration and maintains stable performance in extended speech generation up to 30 seconds, whereas RoPE suffers from notable degradation. Notably, our method achieves a state-of-the-art word error rate on a standard zero-shot TTS benchmark.
- Abstract(参考訳): 最近のTTSシステムの多くはトランスフォーマーアーキテクチャ上に構築されており、テキスト音声アライメントにクロスアテンション機構を採用している。
これらのシステムでは、回転位置埋め込み(RoPE)がテキストや音声の表現における位置情報を符号化するのに一般的に用いられる。
本研究では,テキスト音声のアライメントを改善するRoPEの単純かつ効果的な拡張であるLARoPEを導入する。
絶対指標に依存するRoPEとは異なり、LARoPEはクエリとキー位置の相対距離を長さ正規化インデックスを用いて計算する。
実験の結果、LARoPEはRoPEを一貫して上回り、損失収束の高速化、テキスト音声のアライメントの精度の向上、TTS全体の品質の向上を実現している。
さらに、LARoPEは発話長の変動に対してより弾力性を示し、最大30秒までの音声生成において安定した性能を維持する一方、RoPEは顕著な劣化に悩まされている。
特に,本手法は標準ゼロショットTSベンチマークにおいて,最先端の単語誤り率を実現する。
関連論文リスト
- PaTH Attention: Position Encoding via Accumulating Householder Transformations [56.32365080761523]
PaTHは、ハウステリア変換の累積積に基づいて、フレキシブルなデータ依存位置符号化方式である。
家庭用行列の積をコンパクトに表現することで,効率的な並列学習アルゴリズムを導出する。
論文 参考訳(メタデータ) (2025-05-22T08:36:09Z) - VRoPE: Rotary Position Embedding for Video Large Language Models [13.495442349395287]
テキストベース大規模言語モデル(LLM)における位置埋め込み(RoPE)の性能は高い。
RoPE-3Dのようなビデオ適応は、空間次元と時間次元を別々に符号化しようとするが、2つの大きな制限に悩まされる。
ビデオLLMに適した新しい位置符号化法である位置ロータリー埋め込み(VRoPE)を提案する。
論文 参考訳(メタデータ) (2025-02-17T10:53:57Z) - VideoRoPE: What Makes for Good Video Rotary Position Embedding? [109.88966080843608]
VideoRoPEは、長いビデオ検索、ビデオ理解、ビデオ幻覚といった様々な下流タスクにまたがって、従来型のRoPEを一貫して上回っている。
VideoRoPEは、周期的振動を緩和するためのテキスト低周波時間割当、空間対称性を維持するためのテキスト対角配置、時間的および空間的インデックスを分離するためのテキスト調整可能な時間間隔を備えている。
論文 参考訳(メタデータ) (2025-02-07T18:56:04Z) - Benchmarking Rotary Position Embeddings for Automatic Speech Recognition [17.360059094663182]
音声認識(ASR)において相対位置(RelPos)埋め込みが広く使われている
対照的に、RoPE(Rotary Positional Embedding)は、各入力ベクトルをその絶対位置に基づいて回転させ、線形時間からシーケンスの長さを取る。
この研究は、100から50,000時間に及ぶトレーニングデータを用いて、さまざまなASRタスクにわたるRoPEを評価する。
論文 参考訳(メタデータ) (2025-01-10T15:30:46Z) - Rotary Position Embedding for Vision Transformer [44.27871591624888]
本研究では、視覚変換器(ViT)に適用した場合の回転位置埋め込み(RoPE)の包括的解析を提供する。
RoPEは印象的な補間性能、すなわち推論時の画像解像度を増大させながら精度を維持する。
最終的にImageNet-1k、COCO検出、ADE-20kセグメンテーションのパフォーマンスが向上した。
論文 参考訳(メタデータ) (2024-03-20T04:47:13Z) - Scaling Laws of RoPE-based Extrapolation [103.33995311915864]
基本値と外挿性能の関係を記述するために,RoPEに基づく外挿法におけるtextbftextitScaling法則を提案する。
LLaMA2 7Bと13Bで最大100万の文脈長を16Kのトレーニング長で達成した。
論文 参考訳(メタデータ) (2023-10-08T15:50:36Z) - Conformer-based End-to-end Speech Recognition With Rotary Position
Embedding [11.428057887454008]
畳み込み強化変圧器(コンフォーマ)に回転位置埋め込み(RoPE)を導入する。
RoPEは、絶対位置情報を回転行列によって入力シーケンスにエンコードし、自然に明示的な相対位置情報を自己保持モジュールに組み込む。
提案モデルでは,LbriSpeechコーパスの試験クリーンおよびテスト他のセットに対して,コンバータの単語誤り率を8.70%,コンバータの7.27%削減する。
論文 参考訳(メタデータ) (2021-07-13T08:07:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。