論文の概要: Calliope: A TTS-based Narrated E-book Creator Ensuring Exact Synchronization, Privacy, and Layout Fidelity
- arxiv url: http://arxiv.org/abs/2602.10735v1
- Date: Wed, 11 Feb 2026 10:54:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.779128
- Title: Calliope: A TTS-based Narrated E-book Creator Ensuring Exact Synchronization, Privacy, and Layout Fidelity
- Title(参考訳): Calliope: TTSベースのナレーション付き電子書籍クリエーター
- Authors: Hugo L. Hammer, Vajira Thambawita, Pål Halvorsen,
- Abstract要約: ナレーション付き電子書籍は、同期オーディオとデジタルテキストを組み合わせて、再生中の現在話されている単語や文をハイライトする。
現在、テキスト電子書籍を高品質なナレーション付き電子書籍に変換するためのオープンソースソリューションは存在しない。
このギャップを埋めるために設計されたオープンソースフレームワークであるCalliopeを紹介します。
- 参考スコア(独自算出の注目度): 1.8338684045264522
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A narrated e-book combines synchronized audio with digital text, highlighting the currently spoken word or sentence during playback. This format supports early literacy and assists individuals with reading challenges, while also allowing general readers to seamlessly switch between reading and listening. With the emergence of natural-sounding neural Text-to-Speech (TTS) technology, several commercial services have been developed to leverage these technology for converting standard text e-books into high-quality narrated e-books. However, no open-source solutions currently exist to perform this task. In this paper, we present Calliope, an open-source framework designed to fill this gap. Our method leverages state-of-the-art open-source TTS to convert a text e-book into a narrated e-book in the EPUB 3 Media Overlay format. The method offers several innovative steps: audio timestamps are captured directly during TTS, ensuring exact synchronization between narration and text highlighting; the publisher's original typography, styling, and embedded media are strictly preserved; and the entire pipeline operates offline. This offline capability eliminates recurring API costs, mitigates privacy concerns, and avoids copyright compliance issues associated with cloud-based services. The framework currently supports the state-of-the-art open-source TTS systems XTTS-v2 and Chatterbox. A potential alternative approach involves first generating narration via TTS and subsequently synchronizing it with the text using forced alignment. However, while our method ensures exact synchronization, our experiments show that forced alignment introduces drift between the audio and text highlighting significant enough to degrade the reading experience. Source code and usage instructions are available at https://github.com/hugohammer/TTS-Narrated-Ebook-Creator.git.
- Abstract(参考訳): ナレーション付き電子書籍は、同期オーディオとデジタルテキストを組み合わせて、再生中の現在話されている単語や文をハイライトする。
このフォーマットは、早期リテラシーをサポートし、読み書きの課題を個人に支援すると同時に、読み書きと聞き取りをシームレスに切り替えることを可能にする。
ナチュラル・サンディング・ニューラル・テキスト・トゥ・スペーチ(TTS)技術の出現に伴い、標準的なテキスト電子書籍を高品質なナレーション付き電子書籍に変換するためにこれらの技術を活用するために、いくつかの商用サービスが開発されている。
しかし、このタスクを実行するためのオープンソースソリューションは今のところ存在しない。
本稿では,このギャップを埋めるためのオープンソースフレームワークであるCalliopeを紹介する。
本手法では,最先端のオープンソース TTS を利用して,EPUB 3 Media Overlay フォーマットでテキスト電子書籍をナレーション付き電子書籍に変換する。
音声タイムスタンプはTSS中に直接キャプチャされ、ナレーションとテキストハイライトの正確な同期が保証され、出版者のオリジナルのタイポグラフィー、スタイリング、埋め込みメディアは厳密に保存され、パイプライン全体がオフラインで動作している。
このオフライン機能は、繰り返し発生するAPIコストを排除し、プライバシの懸念を軽減し、クラウドベースのサービスに関連する著作権コンプライアンスの問題を回避する。
このフレームワークは現在、最先端のオープンソースTSシステムであるXTTS-v2とChatterboxをサポートしている。
潜在的に代替的なアプローチは、最初にTSを介してナレーションを生成し、その後強制アライメントを使用してテキストと同期させることである。
しかし,本手法は正確な同期を保証する一方で,音声とテキストの強調表示の間に強制的アライメントが出現し,読み出し体験を劣化させるのに十分な精度が得られた。
ソースコードと利用手順はhttps://github.com/hugohammer/TTS-Narrated-Ebook-Creator.gitで確認できる。
関連論文リスト
- AudioStory: Generating Long-Form Narrative Audio with Large Language Models [87.23256929520743]
AudioStoryは、大きな言語モデルとテキストからオーディオシステムを統合して、構造化された長文の音声物語を生成するフレームワークである。
LLMを用いて複雑な物語クエリを時間順に並べたサブタスクに分解する。
広汎な実験により,単一音声生成と物語音声生成の両方においてAudioStoryの優位性が,指示追従能力と音声忠実性の両方において,TTAベースラインを上回った。
論文 参考訳(メタデータ) (2025-08-27T17:55:38Z) - UniTTS: An end-to-end TTS system without decoupling of acoustic and semantic information [12.991605203384458]
以下の利点を総合的に提供する DistilCodec と UniTTS を提案する。
DistilCodecは、マルチコードブックオーディオを32のコードを持つシングルコードブックオーディオに蒸留し、100%近い利用率を達成する。
UniTTSは3段階のトレーニングプロセス(事前訓練、監視ファインチューニング(SFT)、アライメント)を採用している。
論文 参考訳(メタデータ) (2025-05-23T03:13:46Z) - Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition [72.22243595269389]
本稿では,テキストやビデオの入力に基づく音声生成,編集,合成のためのフレームワークであるAudio-Agentを紹介する。
提案手法では,事前学習したTTA拡散ネットワークを音声生成エージェントとして利用し,GPT-4でタンデムで動作させる。
VTA(Video-to-audio)タスクでは、既存のほとんどのメソッドは、生成されたオーディオとビデオイベントを同期させるタイムスタンプ検出器のトレーニングを必要とする。
論文 参考訳(メタデータ) (2024-10-04T11:40:53Z) - FluentEditor2: Text-based Speech Editing by Modeling Multi-Scale Acoustic and Prosody Consistency [40.95700389032375]
テキストベースの音声編集(TSE)により、ユーザーは元の録音を変更することなく、対応するテキストを直接修正して音声を編集できる。
現在のTSE技術は、学習中に生成された音声と編集領域における参照の相違を最小限に抑えることに焦点を当てていることが多い。
従来のtextitFluentEditor モデルである textittextbfFluentEditor2 をベースとした新しい流速音声編集手法を提案する。
論文 参考訳(メタデータ) (2024-09-28T10:18:35Z) - Text-to-Video: a Two-stage Framework for Zero-shot Identity-agnostic
Talking-head Generation [16.12424393291571]
本稿では,人別ビデオクローンのための新しい2段階フレームワークを提案する。
最初の段階では、事前訓練されたゼロショットモデルを利用してテキスト音声変換を行う。
第2段階では、説得力のあるビデオを生成するために、音声駆動音声ヘッド生成法が用いられる。
論文 参考訳(メタデータ) (2023-08-12T03:30:49Z) - DiffAVA: Personalized Text-to-Audio Generation with Visual Alignment [30.38594416942543]
本稿では,遅延拡散モデル,すなわちDiffAVAに基づく視覚アライメントを用いた,新規でパーソナライズされたテキスト・音声生成手法を提案する。
我々のDiffAVAは、ビデオ特徴から時間情報を集約するマルチヘッドアテンショントランスフォーマーと、テキスト埋め込みで時間的視覚表現を融合するデュアルマルチモーダル残差ネットワークを活用している。
AudioCapsデータセットの実験結果から、提案したDiffAVAは、視覚的に整列したテキスト・オーディオ生成において、競合する性能を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-22T10:37:27Z) - Automatic Prosody Annotation with Pre-Trained Text-Speech Model [48.47706377700962]
本稿では,事前学習した音声エンコーダを用いたニューラルテキスト音声モデルを用いて,テキストオーディオデータから韻律境界ラベルを自動的に抽出する。
このモデルは、テキストデータと音声データに個別に事前訓練され、TTSデータを三重奏形式(音声、テキスト、韻律)で微調整する。
論文 参考訳(メタデータ) (2022-06-16T06:54:16Z) - Fine-grained style control in Transformer-based Text-to-speech Synthesis [78.92428622630861]
本稿では,Transformer-based text-to-speech synthesis (TransformerTTS) におけるきめ細かいスタイル制御を実現する新しいアーキテクチャを提案する。
参照音声から局所的スタイルトークン(LST)の時系列を抽出することにより、発話スタイルをモデル化する。
実験により, きめ細かいスタイル制御では, 自然性, 知能性, スタイル伝達性が向上することが示された。
論文 参考訳(メタデータ) (2021-10-12T19:50:02Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。