Fugu-MT 論文翻訳(概要): ICE-Talk: an Interface for a Controllable Expressive Talking Machine

論文の概要: ICE-Talk: an Interface for a Controllable Expressive Talking Machine

arxiv url: http://arxiv.org/abs/2008.11045v1
Date: Tue, 25 Aug 2020 14:17:10 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-25 03:15:06.147227
Title: ICE-Talk: an Interface for a Controllable Expressive Talking Machine
Title（参考訳）: ICE-Talk: 制御可能な表現型発話機のためのインタフェース
Authors: No\'e Tits, Kevin El Haddad and Thierry Dutoit
Abstract要約: ICE-TalkはオープンソースのWebベースのGUIで、テキストフィールドとクリック可能な2Dプロットを介して制御可能なパラメータを持つTSシステムを使用することができる。これにより、制御可能なTSに対する潜在空間の研究が可能になる。
参考スコア（独自算出の注目度）: 6.514358246805895
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: ICE-Talk is an open source web-based GUI that allows the use of a TTS system with controllable parameters via a text field and a clickable 2D plot. It enables the study of latent spaces for controllable TTS. Moreover it is implemented as a module that can be used as part of a Human-Agent interaction.
Abstract（参考訳）: ICE-TalkはオープンソースのWebベースのGUIで、テキストフィールドとクリック可能な2Dプロットを介して制御可能なパラメータを持つTSシステムを使用することができる。制御可能なttの潜在空間の研究を可能にする。さらに、人間とエージェントの相互作用の一部として使用できるモジュールとして実装されている。

関連論文リスト

LLM-Enhanced Dialogue Management for Full-Duplex Spoken Dialogue Systems [39.144526590642265]
音声活動検出(VAD)モジュールは、完全なSDSにおける対話マネージャ(DM)のターンテイクを効率的に管理する。音声を短時間に処理することにより、VADはリアルタイムな意思決定を可能にし、コア対話エンジン(CDE)は応答生成のためにのみ活性化される。
論文参考訳（メタデータ） (2025-02-19T23:15:13Z)
Large Generative Model-assisted Talking-face Semantic Communication System [55.42631520122753]
本研究では,LGM-TSC(Large Generative Model-assisted Talking-face Semantic Communication)システムを提案する。送信機のジェネレーティブセマンティック・エクストラクタ(GSE)は、意味的にスパースな音声映像を高情報密度のテキストに変換する。意味的曖昧さと修正のためのLarge Language Model (LLM)に基づくPrivate Knowledge Base (KB)。 BERT-VITS2とSadTalkerモデルを用いた生成意味再構成(GSR)により、テキストを高QoE音声ビデオに変換する。
論文参考訳（メタデータ） (2024-11-06T12:45:46Z)
Description-based Controllable Text-to-Speech with Cross-Lingual Voice Control [14.145510487599932]
本稿では,言語間制御機能を備えた新しい制御可能なテキスト音声合成手法を提案する。我々は、ターゲット言語で訓練されたTSモデルと、他の言語で訓練された記述制御モデルを組み合わせて、入力されたテキスト記述をTSモデルの条件付き特徴にマッピングする。英語と日本語のTTS実験により,本手法が両言語に対して高い自然性と制御性を実現することを示す。
論文参考訳（メタデータ） (2024-09-26T01:08:09Z)
ControlSpeech: Towards Simultaneous Zero-shot Speaker Cloning and Zero-shot Language Style Control With Decoupled Codec [50.273832905535485]
話者の声を完全に模倣し,任意の発話スタイルの制御と調整を可能にするTTSシステムであるControlSpeechを提案する。以前のゼロショットTSモデルとコントロール可能なTSモデルは、さらなる制御と調整機能なしでスピーカーの声を模倣することしかできず、スピーカー固有の音声生成とは無関係であった。
論文参考訳（メタデータ） (2024-06-03T11:15:16Z)
Ranni: Taming Text-to-Image Diffusion for Accurate Instruction Following [59.997857926808116]
画像にテキストのデコードとして意味パネルを導入する。パネルは、入力テキストから解析された視覚概念をアレンジすることで得られる。我々は,実用的なシステムを開発し,連続生成とチャットベースの編集の可能性を示す。
論文参考訳（メタデータ） (2023-11-28T17:57:44Z)
System-Initiated Transitions from Chit-Chat to Task-Oriented Dialogues with Transition Info Extractor and Transition Sentence Generator [4.714297769572548]
チャットから始まる対話シナリオについて検討するが、最終的にはタスク関連サービスに切り替える。統合対話モデルは、チャットとタスク指向対話の両方に関わり得るが、対話モード遷移の間は主導権を握る。
論文参考訳（メタデータ） (2023-08-06T12:25:22Z)
InternGPT: Solving Vision-Centric Tasks by Interacting with ChatGPT Beyond Language [82.92236977726655]
InternGPTは textbfinteraction, textbfnonverbal, textbfchatbot の略である。 InternGPT(iGPT)という対話型視覚フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-09T17:58:34Z)
Can Current Task-oriented Dialogue Models Automate Real-world Scenarios in the Wild? [48.79943762731801]
タスク指向対話(TOD)システムは、主にスロット充填ベースのTOD(SF-TOD)フレームワークに基づいている。現在のTODベンチマークは、現実のシナリオをサロゲートするために限られており、現在のTODモデルは、シナリオをカバーするための長い道のりである、と我々は主張する。 WebTODでは、対話システムは、人間のエージェントが対話するWeb/モバイルインターフェースの理解方法を学ぶ。
論文参考訳（メタデータ） (2022-12-20T18:18:41Z)
ESPnet2-TTS: Extending the Edge of TTS Research [62.92178873052468]
ESPnet2-TTSは、E2E-TTS(E2E-TTS)ツールキットである。新機能としては、オンザフライフレキシブルプリプロセッシング、ニューラルボコーダとのジョイントトレーニング、フルバンドE2Eテキスト・トゥ・ウェーブフォームモデリングのような拡張を備えた最先端のTSモデルなどがある。
論文参考訳（メタデータ） (2021-10-15T03:27:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。