論文の概要: JoyHallo: Digital human model for Mandarin
- arxiv url: http://arxiv.org/abs/2409.13268v1
- Date: Fri, 20 Sep 2024 06:57:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 07:51:11.402774
- Title: JoyHallo: Digital human model for Mandarin
- Title(参考訳): JoyHallo: マンダリンのデジタルヒューマンモデル
- Authors: Sheng Shi, Xuyang Cao, Jun Zhao, Guoxin Wang,
- Abstract要約: 本研究はJD Health International Inc.の従業員から29時間のマンダリン音声ビデオを収集した。
このデータセットには、さまざまな年齢と話し方が含まれており、会話と専門の医療トピックの両方を含んでいる。
マンダリンのJoyHalloモデルに適応するために、我々は中国語wav2vec2モデルをオーディオ機能埋め込みに使用した。
- 参考スコア(独自算出の注目度): 11.417654162256314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In audio-driven video generation, creating Mandarin videos presents significant challenges. Collecting comprehensive Mandarin datasets is difficult, and the complex lip movements in Mandarin further complicate model training compared to English. In this study, we collected 29 hours of Mandarin speech video from JD Health International Inc. employees, resulting in the jdh-Hallo dataset. This dataset includes a diverse range of ages and speaking styles, encompassing both conversational and specialized medical topics. To adapt the JoyHallo model for Mandarin, we employed the Chinese wav2vec2 model for audio feature embedding. A semi-decoupled structure is proposed to capture inter-feature relationships among lip, expression, and pose features. This integration not only improves information utilization efficiency but also accelerates inference speed by 14.3%. Notably, JoyHallo maintains its strong ability to generate English videos, demonstrating excellent cross-language generation capabilities. The code and models are available at https://jdh-algo.github.io/JoyHallo.
- Abstract(参考訳): 音声によるビデオ生成では、マンダリンのビデオを作成することが大きな課題である。
包括的なマンダリンデータセットの収集は困難であり、マンダリンの複雑な唇の動きは、英語と比較してモデルトレーニングをさらに複雑にしている。
本研究では、JD Health International Inc.の従業員から29時間のマンダリン音声ビデオを収集し、その結果、jdh-Halloデータセットが得られた。
このデータセットには、さまざまな年齢と話し方が含まれており、会話と専門の医療トピックの両方を含んでいる。
マンダリンのJoyHalloモデルに適応するために、我々は中国語wav2vec2モデルをオーディオ機能埋め込みに使用した。
唇, 表情, ポーズの特徴間の機能間関係を捉えるために, 半疎結合構造を提案する。
この統合により情報利用効率が向上するだけでなく、推論速度も14.3%向上する。
特に、JoyHalloは、英語のビデオを生成する強力な能力を維持しており、優れた言語間の生成能力を誇示している。
コードとモデルはhttps://jdh-algo.github.io/JoyHalloで公開されている。
関連論文リスト
- Enhancing Low-Resource Language and Instruction Following Capabilities of Audio Language Models [13.855545744177586]
本稿では,タイ語を用いた未保存言語における既存の音声言語モデルの性能について検討する。
多言語バックボーン上に構築されているにもかかわらず、音声言語モデルは言語間の創発能力を示すものではない。
本稿では,音声理解と音声指示追従機能を単一統一モデルに統合する。
論文 参考訳(メタデータ) (2024-09-17T09:04:03Z) - MulliVC: Multi-lingual Voice Conversion With Cycle Consistency [75.59590240034261]
MulliVCは、音色のみを変換し、多言語ペアリングデータなしでオリジナルコンテンツとソースコードの韻律を保持する新しい音声変換システムである。
目的と主観の両方の結果から,MulliVCはモノリンガルとクロスリンガルの両方の文脈において,他の手法をはるかに上回っていることが示唆された。
論文 参考訳(メタデータ) (2024-08-08T18:12:51Z) - FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs [63.8261207950923]
FunAudioLLMは、人間と大規模言語モデル(LLM)の間の自然な音声相互作用を強化するために設計されたモデルファミリーである
中心となる2つの革新的なモデルとして、多言語音声認識、感情認識、音声イベント検出を処理するSenseVoiceと、複数の言語、音色、話し方、話者識別を制御した自然言語生成を容易にするCosyVoiceがある。
SenseVoiceとCosyVoiceに関連するモデルは、GitHubでリリースされたトレーニング、推論、微調整コードとともに、ModelscopeとHuggingfaceでオープンソース化されている。
論文 参考訳(メタデータ) (2024-07-04T16:49:02Z) - Cross-Lingual Transfer Learning for Speech Translation [7.802021866251242]
本稿では,制限データを用いた音声基礎モデルの音声翻訳機能の拡張について検討する。
Whisperは、音声認識と英訳に強い性能を持つ音声基礎モデルであり、その例として用いられる。
音声から音声への検索を用いて,エンコーダが生成した音声表現を分析し,異なる言語からの発話を共有意味空間にマッピングすることを示す。
論文 参考訳(メタデータ) (2024-07-01T09:51:48Z) - MultiTalk: Enhancing 3D Talking Head Generation Across Languages with Multilingual Video Dataset [14.026893125215912]
多様な言語の音声から3D音声の頭部を生成する新しいタスクを提案する。
我々は,20言語で420時間以上の会話ビデオからなる,多言語2Dビデオデータセットを新たに収集した。
多言語設定におけるリップシンクの精度を評価するための指標を提案する。
論文 参考訳(メタデータ) (2024-06-20T12:52:46Z) - Hindi as a Second Language: Improving Visually Grounded Speech with
Semantically Similar Samples [89.16814518860357]
本研究の目的は,多言語の観点からの視覚的基盤音声モデル(VGS)の学習を検討することである。
この研究における重要な貢献は、低リソース言語の性能を向上させるために、バイリンガルな視覚的基盤を持つ音声モデルにおける高リソース言語のパワーを活用することである。
論文 参考訳(メタデータ) (2023-03-30T16:34:10Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Cascaded Multilingual Audio-Visual Learning from Videos [49.44796976615445]
本稿では、英語ビデオで訓練されたモデルを利用して、他の言語の音声・視覚データに適用するケースケードアプローチを提案する。
本手法では,日本語動画のみの学習に比べて,検索性能が10倍近く向上した。
また、日本語とヒンディー語で話される画像のキャプションに対して、英語ビデオで訓練されたモデルを適用し、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-11-08T20:53:50Z) - CLSRIL-23: Cross Lingual Speech Representations for Indic Languages [0.0]
CLSRIL-23は、23のIndic言語にまたがる生音声から言語間の音声表現を学習する自己教師付き学習ベースモデルである。
wav2vec 2.0の上に構築され、マスク付き潜在音声表現よりも対照的なタスクを訓練することで解決される。
単言語と多言語による事前学習の効果を比較するために,事前学習における言語障害の比較を行った。
論文 参考訳(メタデータ) (2021-07-15T15:42:43Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。