Fugu-MT 論文翻訳(概要): ViDA-MAN: Visual Dialog with Digital Humans

論文の概要: ViDA-MAN: Visual Dialog with Digital Humans

arxiv url: http://arxiv.org/abs/2110.13384v1
Date: Tue, 26 Oct 2021 03:23:51 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-27 15:00:25.847230
Title: ViDA-MAN: Visual Dialog with Digital Humans
Title（参考訳）: ViDA-MAN: デジタル人間を用いたビジュアルダイアログ
Authors: Tong Shen, Jiawei Zuo, Fan Shi, Jin Zhang, Liqin Jiang, Meng Chen, Zhengchen Zhang, Wei Zhang, Xiaodong He, Tao Mei
Abstract要約: 音声要求が与えられた場合、ViDA-MANは秒以下のレイテンシで高品質なビデオに応答することができる。 ViDA-MANは、大きな知識ベースを基盤として、チキンチャット、天気予報、デバイス制御、ニュースレコメンデーション、ホテルの予約、構造化された知識による質問に答えるなど、さまざまなトピックについてユーザーとチャットすることができる。
参考スコア（独自算出の注目度）: 50.218369825060876
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We demonstrate ViDA-MAN, a digital-human agent for multi-modal interaction, which offers realtime audio-visual responses to instant speech inquiries. Compared to traditional text or voice-based system, ViDA-MAN offers human-like interactions (e.g, vivid voice, natural facial expression and body gestures). Given a speech request, the demonstration is able to response with high quality videos in sub-second latency. To deliver immersive user experience, ViDA-MAN seamlessly integrates multi-modal techniques including Acoustic Speech Recognition (ASR), multi-turn dialog, Text To Speech (TTS), talking heads video generation. Backed with large knowledge base, ViDA-MAN is able to chat with users on a number of topics including chit-chat, weather, device control, News recommendations, booking hotels, as well as answering questions via structured knowledge.
Abstract（参考訳）: 提案するvida-manは,マルチモーダルインタラクションのためのディジタル・ヒューマンエージェントであり,即時音声問合せに対してリアルタイムの音声・視覚応答を提供する。従来のテキストや音声ベースのシステムと比較して、ViDA-MANは人間のようなインタラクション(例えば、鮮やかな声、自然な表情、身体のジェスチャー)を提供する。音声要求が与えられたら、デモは秒以下のレイテンシで高品質なビデオに応答できる。没入型ユーザエクスペリエンスを実現するために、ViDA-MANは、音響音声認識(ASR)、マルチターンダイアログ、テキスト音声(TTS)、音声ヘッドビデオ生成などのマルチモーダル技術をシームレスに統合する。 vida-manには大きな知識ベースがあり、chit-chat、天気予報、デバイスコントロール、ニュースレコメンデーション、ホテル予約、構造化された知識による質問に答えるなど、さまざまなトピックのユーザとチャットできる。

関連論文リスト

Multi-human Interactive Talking Dataset [20.920129008402718]
マルチヒューマン音声ビデオ生成に特化して設計された大規模データセットであるMITを紹介する。得られたデータセットは、12時間の高解像度映像で構成され、それぞれ2〜4人の話者を特徴とする。マルチスピーカーシナリオにおける自然な会話のダイナミクスを捉え、インタラクティブな視覚行動を研究するための豊富なリソースを提供する。
論文参考訳（メタデータ） (2025-08-05T03:54:18Z)
MultiVox: Benchmarking Voice Assistants for Multimodal Interactions [43.55740197419447]
音声と視覚を融合させる音声アシスタントの能力を評価する最初のベンチマークであるMultiVoxを紹介する。 9つの最先端モデルに対する我々の評価は、人間はこれらのタスクに長けているが、現在のモデルは、常に文脈的に基礎付けられた応答を生成するのに苦労していることを示している。
論文参考訳（メタデータ） (2025-07-14T23:20:42Z)
Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation [55.043492250775294]
本稿では,新しい対面音声対話モデルを提案する。ユーザ入力から音声視覚音声を処理し、応答として音声視覚音声を生成する。また,最初の大規模マルチモーダル音声対話コーパスであるMultiDialogを紹介する。
論文参考訳（メタデータ） (2024-06-12T04:48:36Z)
Neural Text to Articulate Talk: Deep Text to Audiovisual Speech Synthesis achieving both Auditory and Photo-realism [26.180371869137257]
会話顔生成における最先端技術は、主にリップシンキングに焦点を当て、音声クリップに条件付けされている。 NEUral Text to ARticulate Talk (NEUTART) は、音声視覚機能空間を用いた音声合成システムである。モデルは、人間のような調音と、よく同期されたオーディオヴィジュアルストリームを備えた、フォトリアリスティックなトーキングフェイスビデオを生成する。
論文参考訳（メタデータ） (2023-12-11T18:41:55Z)
Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文参考訳（メタデータ） (2023-06-21T05:11:39Z)
Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis [66.43223397997559]
入力テキストに対応する高品質な音声ポートレート映像を合成することを目的としている。この課題は、デジタルヒューマン産業における幅広い応用の見通しを持っているが、まだ技術的には達成されていない。本稿では,Ada-TTA(Adaptive Text-to-Talking Avatar)を提案する。
論文参考訳（メタデータ） (2023-06-06T08:50:13Z)
Responsive Listening Head Generation: A Benchmark Dataset and Baseline [58.168958284290156]
本研究では、応答型リスニングヘッド生成タスクを、複数の入力に応答する動きと表現を持つ非言語ヘッドの合成として定義する。音声によるジェスチャーや音声のヘッド生成とは違って,いくつかの研究分野の恩恵を期待して,このタスクにより多くのモーダルを導入する。
論文参考訳（メタデータ） (2021-12-27T07:18:50Z)
Intelligent Conversational Android ERICA Applied to Attentive Listening and Job Interview [41.789773897391605]
我々はインテリジェントな会話型android ericaを開発した。 ERICAには,注意深い聞き取り,就職面接,スピードデートなど,いくつかのソーシャルインタラクションタスクを設定した。 40人の高齢者が会話を分解することなく5～7分間の会話を行ったことが評価されている。
論文参考訳（メタデータ） (2021-05-02T06:37:23Z)
Multimodal Transformer with Pointer Network for the DSTC8 AVSD Challenge [48.905496060794114]
第8回対話システム技術チャレンジのAVSDトラックへの提出について述べる。入力ビデオのテキスト機能と非テキスト機能を組み合わせるために,ドット商品の注意を取り入れた。自動測定では高い性能を達成し, 人的評価では5位, 6位となった。
論文参考訳（メタデータ） (2020-02-25T06:41:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。