論文の概要: Aikyam: A Video Conferencing Utility for Deaf and Dumb
- arxiv url: http://arxiv.org/abs/2312.05962v1
- Date: Sun, 10 Dec 2023 18:27:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 17:52:29.593368
- Title: Aikyam: A Video Conferencing Utility for Deaf and Dumb
- Title(参考訳): Aikyam: 聴覚障害とダムのためのビデオ会議ユーティリティ
- Authors: Kshitij Deshpande, Varad Mashalkar, Kaustubh Mhaisekar, Amaan Naikwadi
and Archana Ghotkar
- Abstract要約: パンデミックの出現に伴い、コミュニケーション手段としてのビデオ会議プラットフォームの利用が大幅に増加した。
本稿では、既存のビデオ会議プラットフォームと併用してこれらの問題に対処できる全アクセス型ビデオ会議ユーティリティを提案する。
適切な意味的正しい文はシグナーのジェスチャーから生成され、システムによって解釈される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the advent of the pandemic, the use of video conferencing platforms as a
means of communication has greatly increased and with it, so have the remote
opportunities. The deaf and dumb have traditionally faced several issues in
communication, but now the effect is felt more severely. This paper proposes an
all-encompassing video conferencing utility that can be used with existing
video conferencing platforms to address these issues. Appropriate semantically
correct sentences are generated from the signer's gestures which would be
interpreted by the system. Along with an audio to emit this sentence, the
user's feed is also used to annotate the sentence. This can be viewed by all
participants, thus aiding smooth communication with all parties involved. This
utility utilizes a simple LSTM model for classification of gestures. The
sentences are constructed by a t5 based model. In order to achieve the required
data flow, a virtual camera is used.
- Abstract(参考訳): パンデミックの到来に伴い、コミュニケーション手段としてのビデオ会議プラットフォームの使用が大幅に増加し、それに伴い遠隔地での機会も増えた。
聴覚障害者と愚か者は伝統的にコミュニケーションのいくつかの問題に直面してきたが、現在ではその影響はより厳しく感じられている。
本稿では、既存のビデオ会議プラットフォームと併用してこれらの問題に対処できる全アクセスビデオ会議ユーティリティを提案する。
適切な意味的正しい文は、システムによって解釈されるシグナーのジェスチャーから生成される。
この文を出力するオーディオと共に、ユーザのフィードも、その文に注釈をつけるために使用される。
これはすべての参加者が見ることができ、すべての関係者との円滑なコミュニケーションを支援する。
このユーティリティは、ジェスチャの分類に単純なLSTMモデルを使用する。
文はt5ベースのモデルによって構築される。
必要なデータフローを達成するために、仮想カメラを使用する。
関連論文リスト
- Controlling Whisper: Universal Acoustic Adversarial Attacks to Control Speech Foundation Models [3.1511847280063696]
音声可能な基礎モデルは、適切なプロンプトを用いて自動音声認識以外のタスクを実行することができる。
音声プロンプト付き大規模言語モデルの開発により、さらに大きな制御オプションが生まれる可能性がある。
この柔軟性により、システムはモデル制御の敵攻撃の影響を受けやすいことが実証された。
論文 参考訳(メタデータ) (2024-07-05T13:04:31Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - AudioChatLlama: Towards General-Purpose Speech Abilities for LLMs [27.122094554340194]
我々は、エンドツーエンドの汎用音声処理と推論能力を備えた命令調整型Llama-2モデルを拡張する。
結果、AudioChatLlamaと呼ばれるエンドツーエンドモデルは、音声プロンプトをテキストの代替として利用し、会話を維持することができる。
論文 参考訳(メタデータ) (2023-11-12T06:56:14Z) - Audio-visual video-to-speech synthesis with synthesized input audio [64.86087257004883]
トレーニングと推論における音声合成におけるビデオ入力と音声入力の併用効果について検討する。
特に、事前学習したビデオ音声合成モデルを用いて、欠落した音声信号を合成し、サイレントビデオと合成音声の両方を入力として、音声音声合成モデルを訓練し、最終的な再構成音声を予測する。
論文 参考訳(メタデータ) (2023-07-31T11:39:05Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Speech Aware Dialog System Technology Challenge (DSTC11) [12.841429336655736]
タスク指向ダイアログモデリングのほとんどの研究は、テキスト入力に基づいている。
TTS-Verbatim: テキスト入力をTTSシステムを用いて音声波形に変換し, (b) ヒューマン・ヴァーバティム: ユーザ入力を動詞入力, (c) ヒューマン・パラフレーズ化: ユーザ入力をパラフレーズ化した。
論文 参考訳(メタデータ) (2022-12-16T20:30:33Z) - VCVTS: Multi-speaker Video-to-Speech synthesis via cross-modal knowledge
transfer from voice conversion [77.50171525265056]
本稿では,音声変換(VC)からのクロスモーダルな知識伝達に基づく,VTS(Multi-Speaker Video-to-Speech)システムを提案する。
Lip2Indネットワークは、VCのコンテンツエンコーダを交換してマルチスピーカVTSシステムを形成し、サイレントビデオを音響ユニットに変換して正確な音声コンテンツを再構成する。
論文 参考訳(メタデータ) (2022-02-18T08:58:45Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z) - CSLNSpeech: solving extended speech separation problem with the help of
Chinese sign language [25.474160807315215]
顔と手話の両方が支援する音声分離問題を解くモデルを提案する。
我々は3つのモーダル、音声、顔、手話情報の組み合わせを学習するための一般的なディープラーニングネットワークを設計する。
実験結果から,提案手法は通常の音声・視覚システムよりも優れた性能とロバスト性を示した。
論文 参考訳(メタデータ) (2020-07-21T07:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。