論文の概要: AI based Presentation Creator With Customized Audio Content Delivery
- arxiv url: http://arxiv.org/abs/2106.14213v1
- Date: Sun, 27 Jun 2021 12:17:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-29 13:52:58.466118
- Title: AI based Presentation Creator With Customized Audio Content Delivery
- Title(参考訳): 音声コンテンツ配信をカスタマイズしたaiベースのプレゼンテーションクリエータ
- Authors: Muvazima Mansoor, Srikanth Chandar, Ramamoorthy Srinath
- Abstract要約: 本稿では,機械学習(ML)アルゴリズムと自然言語処理(NLP)モジュールを用いて,文書からスライドベースのプレゼンテーションを作成するプロセスを自動化することを目的とする。
次に、最先端の音声クローンモデルを使用して、希望する著者の声にコンテンツを配信します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose an architecture to solve a novel problem statement
that has stemmed more so in recent times with an increase in demand for virtual
content delivery due to the COVID-19 pandemic. All educational institutions,
workplaces, research centers, etc. are trying to bridge the gap of
communication during these socially distanced times with the use of online
content delivery. The trend now is to create presentations, and then
subsequently deliver the same using various virtual meeting platforms. The time
being spent in such creation of presentations and delivering is what we try to
reduce and eliminate through this paper which aims to use Machine Learning (ML)
algorithms and Natural Language Processing (NLP) modules to automate the
process of creating a slides-based presentation from a document, and then use
state-of-the-art voice cloning models to deliver the content in the desired
author's voice. We consider a structured document such as a research paper to
be the content that has to be presented. The research paper is first summarized
using BERT summarization techniques and condensed into bullet points that go
into the slides. Tacotron inspired architecture with Encoder, Synthesizer, and
a Generative Adversarial Network (GAN) based vocoder, is used to convey the
contents of the slides in the author's voice (or any customized voice). Almost
all learning has now been shifted to online mode, and professionals are now
working from the comfort of their homes. Due to the current situation, teachers
and professionals have shifted to presentations to help them in imparting
information. In this paper, we aim to reduce the considerable amount of time
that is taken in creating a presentation by automating this process and
subsequently delivering this presentation in a customized voice, using a
content delivery mechanism that can clone any voice using a short audio clip.
- Abstract(参考訳): 本稿では,新型コロナウイルス(covid-19)のパンデミックによる仮想コンテンツ配信需要の増加に伴い,近年になって発生した新たな問題ステートメントを解決するアーキテクチャを提案する。
すべての教育機関、職場、研究センターなど。
社会的に離れた時間におけるコミュニケーションのギャップを オンラインコンテンツ配信で埋めようとしているのです
現在のトレンドはプレゼンテーションを作成し、その後、さまざまな仮想ミーティングプラットフォームを使用して同じものを提供することです。
この論文は、機械学習(ML)アルゴリズムと自然言語処理(NLP)モジュールを使用して、文書からスライドベースのプレゼンテーションを作成するプロセスを自動化し、最先端の音声クローンモデルを使用して、希望する著者の声にコンテンツを配信することを目的としています。
本稿では,研究論文などの構造化文書を提示すべき内容とみなす。
本研究は,まずBERT要約技術を用いて要約し,スライドに挿入する弾丸点に縮合する。
Encoder, Synthesizer, and a Generative Adversarial Network (GAN) ベースのボコーダによるTacotronインスパイアされたアーキテクチャは、著者の声(または任意のカスタマイズされた音声)のスライドの内容を伝えるために使用される。
ほとんどすべての学習がオンラインモードに移行し、専門家は自宅の快適さから仕事をしている。
現在の状況から、教師や専門家は情報提供を支援するためにプレゼンテーションに移行している。
本稿では,短い音声クリップで任意の音声をクローンできるコンテンツ配信機構を用いて,このプロセスを自動化し,そのプレゼンテーションをカスタマイズした音声で配信することにより,プレゼンテーション作成に要する時間を削減することを目的とする。
関連論文リスト
- Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis [13.702423348269155]
本稿では,VTTSのビデオから音声を生成するタスクを提案し,マルチモーダル音声生成のための新しい手法を提案する。
本稿では,このタスクをビザトロニクスと呼ぶデコーダのみのマルチモーダルモデルを提案する。
視覚、テキスト、音声を直接トランスフォーマーモデルの共通部分空間に埋め込み、自己回帰的損失を用いて、話者ビデオや音声の書き起こしに条件付けられた離散化メル-スペクトログラムの生成モデルを学ぶ。
論文 参考訳(メタデータ) (2024-11-26T18:57:29Z) - IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。
我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。
我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文 参考訳(メタデータ) (2024-10-09T05:04:31Z) - Intelligent Interface: Enhancing Lecture Engagement with Didactic Activity Summaries [0.054204929130712134]
このプロトタイプは、機械学習に基づく技術を用いて、講義のビデオ録画の中で選択された実践的、行動的な教師の特徴を認識する。
このシステムは、新しい/追加の機械学習モデルと画像およびビデオ分析のためのソフトウェアモジュールの(将来の)統合のための柔軟性を提供する。
論文 参考訳(メタデータ) (2024-06-20T12:45:23Z) - Towards Accurate Lip-to-Speech Synthesis in-the-Wild [31.289366690147556]
そこで本研究では,唇の動きのみをベースとしたサイレントビデオから音声を合成する手法を提案する。
リップビデオから直接音声を生成する従来のアプローチは、音声だけで堅牢な言語モデルを学べないという課題に直面している。
我々は,我々のモデルに言語情報を注入する最先端のリップ・トゥ・テキスト・ネットワークを用いて,ノイズの多いテキスト管理を導入することを提案する。
論文 参考訳(メタデータ) (2024-03-02T04:07:24Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - Multimodal Lecture Presentations Dataset: Understanding Multimodality in
Educational Slides [57.86931911522967]
学習内容のマルチモーダル理解における機械学習モデルの能力を検証する。
このデータセットには,180時間以上のビデオと9000時間以上のスライドが,各科目から10人の講師が参加している。
マルチモーダル・トランスフォーマーであるPolyViLTを導入する。
論文 参考訳(メタデータ) (2022-08-17T05:30:18Z) - CLUE: Contextualised Unified Explainable Learning of User Engagement in
Video Lectures [6.25256391074865]
本稿では,オンライン授業ビデオから抽出した特徴から学習する統合モデルCLUEを提案する。
我々のモデルは、言語、文脈情報、配信されたコンテンツのテキスト感情の複雑さをモデル化するために、様々なマルチモーダル機能を利用する。
論文 参考訳(メタデータ) (2022-01-14T19:51:06Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。