論文の概要: Comparative Analysis of Audio Feature Extraction for Real-Time Talking Portrait Synthesis
- arxiv url: http://arxiv.org/abs/2411.13209v1
- Date: Wed, 20 Nov 2024 11:18:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:09:36.172798
- Title: Comparative Analysis of Audio Feature Extraction for Real-Time Talking Portrait Synthesis
- Title(参考訳): リアルタイム音声合成のための音声特徴抽出の比較分析
- Authors: Pegah Salehi, Sajad Amouei Sheshkal, Vajira Thambawita, Sushant Gautam, Saeed S. Sabet, Dag Johansen, Michael A. Riegler, Pål Halvorsen,
- Abstract要約: 我々は、従来のAFEモデルをOpen AIのWhisperに置き換える、完全に統合されたシステムを提案し、実装する。
我々はWhisperが処理を高速化するだけでなく、レンダリング品質の特定の側面を改善し、より現実的で応答性の高い対話型対話を実現することを示した。
- 参考スコア(独自算出の注目度): 3.210706100833053
- License:
- Abstract: This paper examines the integration of real-time talking-head generation for interviewer training, focusing on overcoming challenges in Audio Feature Extraction (AFE), which often introduces latency and limits responsiveness in real-time applications. To address these issues, we propose and implement a fully integrated system that replaces conventional AFE models with Open AI's Whisper, leveraging its encoder to optimize processing and improve overall system efficiency. Our evaluation of two open-source real-time models across three different datasets shows that Whisper not only accelerates processing but also improves specific aspects of rendering quality, resulting in more realistic and responsive talking-head interactions. These advancements make the system a more effective tool for immersive, interactive training applications, expanding the potential of AI-driven avatars in interviewer training.
- Abstract(参考訳): 本稿では,音声特徴抽出 (AFE) における課題の克服に焦点をあて, リアルタイムアプリケーションにおける遅延や応答性制限といった課題に焦点をあてて, インタビュアー訓練におけるリアルタイムトーキングヘッド生成の統合について検討する。
これらの問題に対処するため、従来のAFEモデルをOpen AIのWhisperに置き換え、エンコーダを活用して処理を最適化し、システム全体の効率を改善する、完全に統合されたシステムを提案し、実装する。
3つのデータセットにまたがる2つのオープンソースリアルタイムモデルを評価したところ、Whisperは処理を高速化するだけでなく、レンダリング品質の特定の側面を改善し、より現実的で応答性の高い対話ヘッドインタラクションをもたらすことがわかった。
これらの進歩により、システムは没入的でインタラクティブなトレーニングアプリケーションのためのより効果的なツールとなり、インタビュアートレーニングにおけるAI駆動アバターの可能性を広げる。
関連論文リスト
- Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - Enabling Real-Time Conversations with Minimal Training Costs [61.80370154101649]
本稿では,2つの言語モデルに対して,最小限の訓練を要し,2つの言語能力を持つ新しい重複復号法を提案する。
実験結果から,本手法はトレーニングコストの最小化とともに,ユーザとAIのインタラクションの自然性と人間的類似性を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-09-18T06:27:26Z) - Synesthesia of Machines (SoM)-Enhanced ISAC Precoding for Vehicular Networks with Double Dynamics [15.847713094328286]
統合センシング・通信(ISAC)技術は車載ネットワークにおいて重要な役割を担っている。
ダブルダイナミクスは、リアルタイムISACプリコーディング設計において重要な課題を示す。
本稿では,機械(SoM)に強化されたプリコーディングパラダイムの合成を提案する。
論文 参考訳(メタデータ) (2024-08-24T10:35:10Z) - Heterogeneous Space Fusion and Dual-Dimension Attention: A New Paradigm for Speech Enhancement [7.789114492151524]
異種空間特徴を統合し,二次元アテンション機構を組み込んだ新しい音声強調フレームワークHFSDAを提案する。
提案モデルは,高レベルな意味情報と詳細なスペクトルデータの両方を抽出し,より詳細な分析と音声信号の改良を可能にする。
我々は、時間次元だけでなくスペクトル領域にわたって特徴抽出能力を高めることで、コンフォーマーモデルを洗練する。
論文 参考訳(メタデータ) (2024-08-13T14:04:24Z) - RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network [48.95833484103569]
RealTalkは、音声から表現へのトランスフォーマーであり、高忠実な表現から顔へのフレームワークである。
第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。
第2のコンポーネントでは、軽量な顔認証アライメント(FIA)モジュールを設計する。
この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
論文 参考訳(メタデータ) (2024-06-26T12:09:59Z) - Thread Detection and Response Generation using Transformers with Prompt
Optimisation [5.335657953493376]
本稿では,スレッドを識別し,その重要度に基づいて応答生成を優先するエンドツーエンドモデルを開発する。
モデルは最大10倍の速度向上を実現し、既存のモデルに比べて一貫性のある結果を生成する。
論文 参考訳(メタデータ) (2024-03-09T14:50:20Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - FV2ES: A Fully End2End Multimodal System for Fast Yet Effective Video
Emotion Recognition Inference [6.279057784373124]
本稿では,高速かつ効果的な認識推定のためのフルマルチモーダル映像合成システム(FV2ES)を設計する。
音響スペクトルに対する階層的アテンション法の適用は、音響モーダルの限られた寄与によって破られる。
整列型マルチモーダル学習モデルへのデータ前処理のさらなる統合により、計算コストとストレージスペースが大幅に削減される。
論文 参考訳(メタデータ) (2022-09-21T08:05:26Z) - VIRT: Improving Representation-based Models for Text Matching through
Virtual Interaction [50.986371459817256]
本稿では,VIRT と呼ばれる新しいtextitVirtual InteRacTion 機構を提案する。
VIRTは、表現ベースのエンコーダに、対話ベースのモデルのように振舞いを模倣する仮想インタラクションを実行するよう要求する。
論文 参考訳(メタデータ) (2021-12-08T09:49:28Z) - Towards Intelligibility-Oriented Audio-Visual Speech Enhancement [8.19144665585397]
本稿では,STOI(Modified short-time objective intelligibility)メトリックをトレーニングコスト関数として用いた完全畳み込み型AVSEモデルを提案する。
提案するI-O AV SEフレームワークは,従来の距離に基づく損失関数を訓練したオーディオ専用(AO)およびAVモデルより優れている。
論文 参考訳(メタデータ) (2021-11-18T11:47:37Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。