論文の概要: Emotion-Aware Speech Generation with Character-Specific Voices for Comics
- arxiv url: http://arxiv.org/abs/2509.15253v1
- Date: Thu, 18 Sep 2025 05:49:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.821015
- Title: Emotion-Aware Speech Generation with Character-Specific Voices for Comics
- Title(参考訳): コミックのための文字特化音声を用いた感情認識音声生成
- Authors: Zhiwen Qian, Jinhua Liang, Huan Zhang,
- Abstract要約: 本稿では,漫画からキャラクター固有の感情認識音声を生成するためのエンドツーエンドパイプラインを提案する。
提案システムは,全巻を入力として,各キャラクタの対話や感情状態に合わせて音声を生成する。
- 参考スコア(独自算出の注目度): 9.329714655190395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents an end-to-end pipeline for generating character-specific, emotion-aware speech from comics. The proposed system takes full comic volumes as input and produces speech aligned with each character's dialogue and emotional state. An image processing module performs character detection, text recognition, and emotion intensity recognition. A large language model performs dialogue attribution and emotion analysis by integrating visual information with the evolving plot context. Speech is synthesized through a text-to-speech model with distinct voice profiles tailored to each character and emotion. This work enables automated voiceover generation for comics, offering a step toward interactive and immersive comic reading experience.
- Abstract(参考訳): 本稿では,漫画からキャラクター固有の感情認識音声を生成するためのエンドツーエンドパイプラインを提案する。
提案システムは,全巻を入力として,各キャラクタの対話や感情状態に合わせた音声を生成する。
画像処理モジュールは、文字検出、テキスト認識、感情強度認識を行う。
大きな言語モデルは、進化するプロットコンテキストに視覚情報を統合することにより、対話属性と感情分析を行う。
音声は、各文字と感情に合わせて異なる音声プロファイルを持つ音声合成モデルによって合成される。
この作業は、コミックの音声自動生成を可能にし、インタラクティブで没入的な漫画読解体験へのステップを提供する。
関連論文リスト
- OmniCharacter: Towards Immersive Role-Playing Agents with Seamless Speech-Language Personality Interaction [123.89581506075461]
OmniCharacter は,低レイテンシで没入型 RPA を実現するための対話型対話モデルである。
具体的には、OmniCharacterは、エージェントが相互作用を通して、ロール固有の性格特性と声質特性を一貫して表示できるようにする。
提案手法は,既存のRPAモデルや主流言語モデルと比較して,応答遅延を289msに抑えながら,内容とスタイルの両面で優れた応答が得られる。
論文 参考訳(メタデータ) (2025-05-26T17:55:06Z) - Action2Dialogue: Generating Character-Centric Narratives from Scene-Level Prompts [20.281732318265483]
本稿では,アクションレベルのプロンプトを視覚的,聴覚的に基礎付けられた物語対話に変換するモジュールパイプラインを提案する。
提案手法はシーン毎に一対のプロンプトを入力し,第1に設定を定義し,第2にキャラクタの動作を指定する。
我々は、各発話を表現的、文字条件付き音声として表現し、その結果、完全に音声化されたマルチモーダルなビデオ物語を生み出す。
論文 参考訳(メタデータ) (2025-05-22T15:54:42Z) - MoCha: Towards Movie-Grade Talking Character Synthesis [62.007000023747445]
本研究では,音声とテキストから直接話し言葉のアニメーションを生成するための,より現実的なタスクであるトーキングキャラクタを紹介する。
トーキング・キャラクタとは違い、トーキング・キャラクタは顔領域を超えて1つ以上のキャラクターの完全な肖像画を作成することを目的としている。
そこで本研究では,まず,話し言葉を生成するMoChaを提案する。
論文 参考訳(メタデータ) (2025-03-30T04:22:09Z) - Moshi: a speech-text foundation model for real-time dialogue [78.88479749811376]
現在の音声対話システムは、パイプラインの独立した音声活動検出と音声合成に依存している。
そこで本研究では,Moshi Moshiが音声認識と音声合成を実現する方法を紹介する。
得られたモデルは、初めてリアルタイムな全音声大言語モデルモダリティである。
論文 参考訳(メタデータ) (2024-09-17T17:55:39Z) - Toward accessible comics for blind and low vision readers [0.059584784039407875]
我々は,既存のコンピュータビジョンと光学的文字認識技術を用いて,漫画のストリップ画像コンテンツから接地コンテキストを構築することを提案する。
我々は,文字の出現,姿勢,気分,対話など,文脈対応のパネル記述による漫画の脚本を生成する。
論文 参考訳(メタデータ) (2024-07-11T07:50:25Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。