論文の概要: ICE-Talk: an Interface for a Controllable Expressive Talking Machine
- arxiv url: http://arxiv.org/abs/2008.11045v1
- Date: Tue, 25 Aug 2020 14:17:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 03:15:06.147227
- Title: ICE-Talk: an Interface for a Controllable Expressive Talking Machine
- Title(参考訳): ICE-Talk: 制御可能な表現型発話機のためのインタフェース
- Authors: No\'e Tits, Kevin El Haddad and Thierry Dutoit
- Abstract要約: ICE-TalkはオープンソースのWebベースのGUIで、テキストフィールドとクリック可能な2Dプロットを介して制御可能なパラメータを持つTSシステムを使用することができる。
これにより、制御可能なTSに対する潜在空間の研究が可能になる。
- 参考スコア(独自算出の注目度): 6.514358246805895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: ICE-Talk is an open source web-based GUI that allows the use of a TTS system
with controllable parameters via a text field and a clickable 2D plot. It
enables the study of latent spaces for controllable TTS. Moreover it is
implemented as a module that can be used as part of a Human-Agent interaction.
- Abstract(参考訳): ICE-TalkはオープンソースのWebベースのGUIで、テキストフィールドとクリック可能な2Dプロットを介して制御可能なパラメータを持つTSシステムを使用することができる。
制御可能なttの潜在空間の研究を可能にする。
さらに、人間とエージェントの相互作用の一部として使用できるモジュールとして実装されている。
関連論文リスト
- Large Generative Model-assisted Talking-face Semantic Communication System [55.42631520122753]
本研究では,LGM-TSC(Large Generative Model-assisted Talking-face Semantic Communication)システムを提案する。
送信機のジェネレーティブセマンティック・エクストラクタ(GSE)は、意味的にスパースな音声映像を高情報密度のテキストに変換する。
意味的曖昧さと修正のためのLarge Language Model (LLM)に基づくPrivate Knowledge Base (KB)。
BERT-VITS2とSadTalkerモデルを用いた生成意味再構成(GSR)により、テキストを高QoE音声ビデオに変換する。
論文 参考訳(メタデータ) (2024-11-06T12:45:46Z) - Description-based Controllable Text-to-Speech with Cross-Lingual Voice
Control [14.145510487599932]
本稿では,言語間制御機能を備えた新しい制御可能なテキスト音声合成手法を提案する。
我々は、ターゲット言語で訓練されたTSモデルと、他の言語で訓練された記述制御モデルを組み合わせて、入力されたテキスト記述をTSモデルの条件付き特徴にマッピングする。
英語と日本語のTTS実験により,本手法が両言語に対して高い自然性と制御性を実現することを示す。
論文 参考訳(メタデータ) (2024-09-26T01:08:09Z) - ControlSpeech: Towards Simultaneous Zero-shot Speaker Cloning and Zero-shot Language Style Control With Decoupled Codec [50.273832905535485]
話者の声を完全に模倣し,任意の発話スタイルの制御と調整を可能にするTTSシステムであるControlSpeechを提案する。
以前のゼロショットTSモデルとコントロール可能なTSモデルは、さらなる制御と調整機能なしでスピーカーの声を模倣することしかできず、スピーカー固有の音声生成とは無関係であった。
論文 参考訳(メタデータ) (2024-06-03T11:15:16Z) - Ranni: Taming Text-to-Image Diffusion for Accurate Instruction Following [59.997857926808116]
画像にテキストのデコードとして意味パネルを導入する。
パネルは、入力テキストから解析された視覚概念をアレンジすることで得られる。
我々は,実用的なシステムを開発し,連続生成とチャットベースの編集の可能性を示す。
論文 参考訳(メタデータ) (2023-11-28T17:57:44Z) - System-Initiated Transitions from Chit-Chat to Task-Oriented Dialogues
with Transition Info Extractor and Transition Sentence Generator [4.714297769572548]
チャットから始まる対話シナリオについて検討するが、最終的にはタスク関連サービスに切り替える。
統合対話モデルは、チャットとタスク指向対話の両方に関わり得るが、対話モード遷移の間は主導権を握る。
論文 参考訳(メタデータ) (2023-08-06T12:25:22Z) - InternGPT: Solving Vision-Centric Tasks by Interacting with ChatGPT
Beyond Language [82.92236977726655]
InternGPTは textbfinteraction, textbfnonverbal, textbfchatbot の略である。
InternGPT(iGPT)という対話型視覚フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-09T17:58:34Z) - Can Current Task-oriented Dialogue Models Automate Real-world Scenarios
in the Wild? [48.79943762731801]
タスク指向対話(TOD)システムは、主にスロット充填ベースのTOD(SF-TOD)フレームワークに基づいている。
現在のTODベンチマークは、現実のシナリオをサロゲートするために限られており、現在のTODモデルは、シナリオをカバーするための長い道のりである、と我々は主張する。
WebTODでは、対話システムは、人間のエージェントが対話するWeb/モバイルインターフェースの理解方法を学ぶ。
論文 参考訳(メタデータ) (2022-12-20T18:18:41Z) - ESPnet2-TTS: Extending the Edge of TTS Research [62.92178873052468]
ESPnet2-TTSは、E2E-TTS(E2E-TTS)ツールキットである。
新機能としては、オンザフライフレキシブルプリプロセッシング、ニューラルボコーダとのジョイントトレーニング、フルバンドE2Eテキスト・トゥ・ウェーブフォームモデリングのような拡張を備えた最先端のTSモデルなどがある。
論文 参考訳(メタデータ) (2021-10-15T03:27:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。