論文の概要: Challenges and Opportunities in Multi-device Speech Processing
- arxiv url: http://arxiv.org/abs/2206.15432v1
- Date: Mon, 27 Jun 2022 19:18:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-02 21:23:25.181212
- Title: Challenges and Opportunities in Multi-device Speech Processing
- Title(参考訳): マルチデバイス音声処理における課題と機会
- Authors: Gregory Ciccarelli, Jarred Barber, Arun Nair, Israel Cohen, Tao Zhang
- Abstract要約: われわれは、InterSPEECH 2022スペシャルセッション「複数のスマートデバイスにおける信号処理と機械学習の進化と機会」のコンテキストを提供する。
マルチデバイス領域におけるレビューと研究経験に基づいて、今後の進化の展望をまとめる。
- 参考スコア(独自算出の注目度): 14.341073762703633
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We review current solutions and technical challenges for automatic speech
recognition, keyword spotting, device arbitration, speech enhancement, and
source localization in multidevice home environments to provide context for the
INTERSPEECH 2022 special session, "Challenges and opportunities for signal
processing and machine learning for multiple smart devices". We also identify
the datasets needed to support these research areas. Based on the review and
our research experience in the multi-device domain, we conclude with an outlook
on the future evolution
- Abstract(参考訳): 本稿では,マルチデバイスホーム環境における自動音声認識,キーワードスポッティング,デバイス調停,音声強調,ソースローカライズに関する現状と課題について検討し,interspeech 2022特別セッション "challenges and opportunities for signal processing and machine learning for multiple smart devices" のコンテキストを提供する。
また、これらの研究分野をサポートするために必要なデータセットも特定します。
マルチデバイス領域におけるレビューと研究経験に基づいて、今後の発展を展望する。
関連論文リスト
- From Pixels to Prose: Advancing Multi-Modal Language Models for Remote Sensing [16.755590790629153]
本稿では,リモートセンシングにおけるマルチモーダル言語モデル(MLLM)の開発と応用について検討する。
我々は、自然言語を用いて衛星画像の解釈と記述を行う能力に焦点をあてる。
シーン記述、オブジェクト検出、変更検出、テキスト・ツー・イメージ検索、画像・ツー・テキスト生成、視覚的質問応答などの重要な応用について論じる。
論文 参考訳(メタデータ) (2024-11-05T12:14:22Z) - Artificial Intelligence for Cochlear Implants: Review of Strategies, Challenges, and Perspectives [2.608119698700597]
本総説は、CIベースのASRと音声強調の進歩を包括的にカバーすることを目的としている。
このレビューは潜在的な応用を掘り下げ、この領域の既存の研究ギャップを埋めるための今後の方向性を提案する。
論文 参考訳(メタデータ) (2024-03-17T11:28:23Z) - Machine Unlearning: A Survey [56.79152190680552]
プライバシ、ユーザビリティ、および/または忘れられる権利のために、特定のサンプルに関する情報をマシンアンラーニングと呼ばれるモデルから削除する必要がある特別なニーズが生まれている。
この新興技術は、その革新と実用性により、学者と産業の両方から大きな関心を集めている。
この複雑なトピックを分析したり、さまざまなシナリオで既存の未学習ソリューションの実現可能性を比較したりした研究はない。
この調査は、未学習のテクニックに関する卓越した問題と、新しい研究機会のための実現可能な方向性を強調して締めくくった。
論文 参考訳(メタデータ) (2023-06-06T10:18:36Z) - Transformers in Speech Processing: A Survey [4.984401393225283]
トランスフォーマーは、音声認識、音声合成、音声翻訳、音声パラ言語学、音声強調、音声対話システム、マルチモーダルアプリケーションなど、様々な音声関連領域で注目を集めている。
本稿では,音声技術における様々な分野の研究を橋渡しすることを目的とした包括的調査を行う。
論文 参考訳(メタデータ) (2023-03-21T06:00:39Z) - Vision+X: A Survey on Multimodal Learning in the Light of Data [64.03266872103835]
様々なソースからのデータを組み込んだマルチモーダル機械学習が,ますます普及している研究分野となっている。
我々は、視覚、音声、テキスト、動きなど、各データフォーマットの共通点と特異点を分析する。
本稿では,表現学習と下流アプリケーションレベルの両方から,マルチモーダル学習に関する既存の文献を考察する。
論文 参考訳(メタデータ) (2022-10-05T13:14:57Z) - Foundations and Recent Trends in Multimodal Machine Learning:
Principles, Challenges, and Open Questions [68.6358773622615]
本稿では,マルチモーダル機械学習の計算的基礎と理論的基礎について概説する。
本稿では,表現,アライメント,推論,生成,伝達,定量化という,6つの技術課題の分類法を提案する。
最近の技術的成果は、この分類のレンズを通して示され、研究者は新しいアプローチの類似点と相違点を理解することができる。
論文 参考訳(メタデータ) (2022-09-07T19:21:19Z) - Automated Audio Captioning: an Overview of Recent Progress and New
Challenges [56.98522404673527]
自動音声キャプションは、与えられた音声クリップの自然言語記述を生成することを目的とした、モーダル横断翻訳タスクである。
本稿では、既存の様々なアプローチから評価指標やデータセットまで、自動音声キャプションにおけるコントリビューションの総合的なレビューを行う。
論文 参考訳(メタデータ) (2022-05-12T08:36:35Z) - Federated Learning: A Signal Processing Perspective [144.63726413692876]
フェデレーションラーニングは、データを明示的に交換することなく、ローカルデータセットを保持する複数のエッジデバイスでモデルをトレーニングするための新しい機械学習パラダイムです。
本稿では、信号処理ツールを用いて扱うのが自然である主な課題をカプセル化し、強調する、連合学習のための統一的な体系的フレームワークを提供する。
論文 参考訳(メタデータ) (2021-03-31T15:14:39Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。