論文の概要: Xiaomingbot: A Multilingual Robot News Reporter
- arxiv url: http://arxiv.org/abs/2007.08005v1
- Date: Sun, 12 Jul 2020 14:49:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 05:40:05.694312
- Title: Xiaomingbot: A Multilingual Robot News Reporter
- Title(参考訳): Xiaomingbot:多言語ロボットニュースレポーター
- Authors: Runxin Xu, Jun Cao, Mingxuan Wang, Jiaze Chen, Hao Zhou, Ying Zeng,
Yuping Wang, Li Chen, Xiang Yin, Xijin Zhang, Songcheng Jiang, Yuxuan Wang,
Lei Li
- Abstract要約: Xiaomingbotは、インテリジェントで多言語でマルチモーダルなソフトウェアロボットである。
ニュースを生成し、複数の言語で読み、アニメーションアバターを持つ。
それ以来、Xiaomingbotは60万件以上の記事を執筆し、ソーシャルメディアプラットフォーム上で15万件以上のフォロワーを獲得した。
- 参考スコア(独自算出の注目度): 45.763462989886754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes the building of Xiaomingbot, an intelligent, multilingual
and multimodal software robot equipped with four integral capabilities: news
generation, news translation, news reading and avatar animation. Its system
summarizes Chinese news that it automatically generates from data tables. Next,
it translates the summary or the full article into multiple languages, and
reads the multilingual rendition through synthesized speech. Notably,
Xiaomingbot utilizes a voice cloning technology to synthesize the speech
trained from a real person's voice data in one input language. The proposed
system enjoys several merits: it has an animated avatar, and is able to
generate and read multilingual news. Since it was put into practice,
Xiaomingbot has written over 600,000 articles, and gained over 150,000
followers on social media platforms.
- Abstract(参考訳): 本稿では,ニュース生成,ニュース翻訳,ニュース読取,アバターアニメーションという4つの機能を備えた,知的・多言語・マルチモーダルなソフトウェアロボットXiaomingbotの構築を提案する。
そのシステムは、データテーブルから自動的に生成される中国のニュースを要約する。
次に、要約や全記事を複数の言語に翻訳し、合成された音声を通して多言語交替を読み取る。
特にXiaomingbotは音声クローニング技術を利用して、実際の人の音声データから訓練された音声を1つの入力言語で合成する。
提案システムにはアニメーションアバターが備わっており,多言語ニュースを生成,読み取ることができる。
施行以来、xiaomingbotは60万以上の記事を書き、ソーシャルメディアプラットフォーム上で15万以上のフォロワーを獲得した。
関連論文リスト
- Seamless: Multilingual Expressive and Streaming Speech Translation [71.12826355107889]
本稿では,エンドツーエンドの表現型および多言語翻訳をストリーミング形式で実現するモデル群を紹介する。
まず,多言語およびマルチモーダルのSeamlessM4Tモデル-SeamlessM4T v2の改良版をコントリビュートする。
SeamlessExpressiveとSeamlessStreamingの主なコンポーネントをまとめてSeamlessを作ります。
論文 参考訳(メタデータ) (2023-12-08T17:18:42Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Low-Resource Multilingual and Zero-Shot Multispeaker TTS [25.707717591185386]
5分間のトレーニングデータを用いて,新しい言語を学習することが可能であることを示す。
提案手法を,対象話者との親密性,自然性,類似性の観点から示す。
論文 参考訳(メタデータ) (2022-10-21T20:03:37Z) - Talking Face Generation with Multilingual TTS [0.8229645116651871]
音声合成システムと音声合成システムを組み合わせたシステムを提案する。
本システムは,話者の発声性を保ちながら,自然な多言語音声を合成することができる。
デモでは、事前処理ステージに翻訳APIを追加して、ニューラルダバーの形式で提示しています。
論文 参考訳(メタデータ) (2022-05-13T02:08:35Z) - Towards Natural Bilingual and Code-Switched Speech Synthesis Based on
Mix of Monolingual Recordings and Cross-Lingual Voice Conversion [28.830575877307176]
両方の言語でネイティブレベルの流布を実現する話者からバイリンガルコーパスを得るのは容易ではない。
タコトロン2に基づく音声変換システムを用いて、マンダリン話者の英語音声と英語話者のマンダリン音声を生成する。
得られたバイリンガルデータは、Transformerモデルを用いて合成されたコード切替発話で拡張される。
論文 参考訳(メタデータ) (2020-10-16T03:51:00Z) - Cross-lingual Multispeaker Text-to-Speech under Limited-Data Scenario [10.779568857641928]
本稿では,多言語話者音声合成を実現するために,Tacotron2の拡張を提案する。
我々は、単言語話者のための英語とマンダリンの間で、コードスイッチングを含む言語間合成を実現する。
論文 参考訳(メタデータ) (2020-05-21T03:03:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。