論文の概要: Transformers in Speech Processing: A Survey
- arxiv url: http://arxiv.org/abs/2303.11607v1
- Date: Tue, 21 Mar 2023 06:00:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-22 16:31:00.241677
- Title: Transformers in Speech Processing: A Survey
- Title(参考訳): 音声処理におけるトランスフォーマー:調査
- Authors: Siddique Latif, Aun Zaidi, Heriberto Cuayahuitl, Fahad Shamshad,
Moazzam Shoukat, and Junaid Qadir
- Abstract要約: トランスフォーマーは、音声認識、音声合成、音声翻訳、音声パラ言語学、音声強調、音声対話システム、マルチモーダルアプリケーションなど、様々な音声関連領域で注目を集めている。
本稿では,音声技術における様々な分野の研究を橋渡しすることを目的とした包括的調査を行う。
- 参考スコア(独自算出の注目度): 4.984401393225283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The remarkable success of transformers in the field of natural language
processing has sparked the interest of the speech-processing community, leading
to an exploration of their potential for modeling long-range dependencies
within speech sequences. Recently, transformers have gained prominence across
various speech-related domains, including automatic speech recognition, speech
synthesis, speech translation, speech para-linguistics, speech enhancement,
spoken dialogue systems, and numerous multimodal applications. In this paper,
we present a comprehensive survey that aims to bridge research studies from
diverse subfields within speech technology. By consolidating findings from
across the speech technology landscape, we provide a valuable resource for
researchers interested in harnessing the power of transformers to advance the
field. We identify the challenges encountered by transformers in speech
processing while also offering insights into potential solutions to address
these issues.
- Abstract(参考訳): 自然言語処理分野におけるトランスフォーマーの顕著な成功は、音声処理コミュニティの関心を喚起し、音声シーケンス内の長距離依存関係をモデル化する可能性を探るに至った。
近年, 音声認識, 音声合成, 音声翻訳, 音声パラ言語学, 音声強調, 音声対話システム, 多数のマルチモーダルアプリケーションなど, 音声関連分野において, トランスフォーマーが注目されている。
本稿では,音声技術における様々なサブフィールドの研究を橋渡しすることを目的とした総合的な調査を行う。
音声技術全体の知見を集約することにより、トランスフォーマーの力を利用してフィールドを前進させることに関心のある研究者に貴重なリソースを提供する。
音声処理においてトランスフォーマタが直面する課題を特定しながら,この問題に対する潜在的な解決策に関する洞察を提供する。
関連論文リスト
- WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。
これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。
音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文 参考訳(メタデータ) (2024-11-15T04:16:45Z) - Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。
提案手法では,WavLMとWhisperエンコーダを用いて,話者の特徴や意味的文脈に敏感な多面的音声表現を抽出する。
包括的実験により,カクテルパーティーのシナリオにおいて提案システムであるMT-LLMが期待できる性能を示した。
論文 参考訳(メタデータ) (2024-09-13T07:28:28Z) - Speech Recognition Transformers: Topological-lingualism Perspective [5.874509965718588]
本稿では,音声のモータリティを指向したトランスフォーマー技術に関する包括的調査を行う。
本調査の主な内容は,(1)従来のASR,エンド・ツー・エンド・トランスフォーマー・エコシステム,(2)言語主義パラダイムによる音声の基本モデルなどである。
論文 参考訳(メタデータ) (2024-08-27T12:15:43Z) - SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。
音声処理タスクを音声単位生成タスクに再構成する。
提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文 参考訳(メタデータ) (2024-08-23T13:00:10Z) - Survey: Transformer-based Models in Data Modality Conversion [0.8136541584281987]
モダリティ・コンバージョン(Modality Conversion)は、人間が知覚情報を統合して解釈する方法を模倣して、ある形態の表現から別の形式へのデータの変換を行う。
本稿では, テキスト, 視覚, 音声の一次モーダル性に適用されたトランスフォーマーモデルについて, アーキテクチャ, 変換手法, 応用について論じる。
論文 参考訳(メタデータ) (2024-08-08T18:39:14Z) - Analyzing Speech Unit Selection for Textless Speech-to-Speech Translation [23.757896930482342]
本研究は、下流タスクの研究を通して選択プロセスについて考察する。
再生性能のよいユニットは、翻訳効率を高めるユニットと必ずしも相関しない。
論文 参考訳(メタデータ) (2024-07-08T08:53:26Z) - A Comprehensive Survey on Applications of Transformers for Deep Learning
Tasks [60.38369406877899]
Transformerは、シーケンシャルデータ内のコンテキスト関係を理解するために自己認識メカニズムを使用するディープニューラルネットワークである。
Transformerモデルは、入力シーケンス要素間の長い依存関係を処理し、並列処理を可能にする。
我々の調査では、トランスフォーマーベースのモデルのためのトップ5のアプリケーションドメインを特定します。
論文 参考訳(メタデータ) (2023-06-11T23:13:51Z) - SpeechFormer++: A Hierarchical Efficient Framework for Paralinguistic
Speech Processing [17.128885611538486]
パラ言語音声処理は、感情分析や神経認知障害分析などの多くの問題に対処する上で重要である。
音声の特徴を考察し、パラ言語音声処理のための一般的な構造ベースフレームワークであるSpeechFormer++を提案する。
SpeechFormer++は、音声感情認識(IEMOCAP & MELD)、うつ病分類(DAIC-WOZ)、アルツハイマー病検出(Pitt)タスクに基づいて評価される。
論文 参考訳(メタデータ) (2023-02-27T11:48:54Z) - A Review of Speaker Diarization: Recent Advances with Deep Learning [78.20151731627958]
スピーカーダイアリゼーションは、スピーカーのアイデンティティに対応するクラスでオーディオまたはビデオ録画をラベル付けするタスクです。
ディープラーニング技術の台頭に伴い、話者ダイアリゼーションのためのさらなる急速な進歩がなされている。
話者ダイアリゼーションシステムが音声認識アプリケーションとどのように統合されているかについて議論する。
論文 参考訳(メタデータ) (2021-01-24T01:28:05Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。