Fugu-MT 論文翻訳(概要): Transformers in Speech Processing: A Survey

論文の概要: Transformers in Speech Processing: A Survey

arxiv url: http://arxiv.org/abs/2303.11607v1
Date: Tue, 21 Mar 2023 06:00:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-22 16:31:00.241677
Title: Transformers in Speech Processing: A Survey
Title（参考訳）: 音声処理におけるトランスフォーマー:調査
Authors: Siddique Latif, Aun Zaidi, Heriberto Cuayahuitl, Fahad Shamshad, Moazzam Shoukat, and Junaid Qadir
Abstract要約: トランスフォーマーは、音声認識、音声合成、音声翻訳、音声パラ言語学、音声強調、音声対話システム、マルチモーダルアプリケーションなど、様々な音声関連領域で注目を集めている。本稿では,音声技術における様々な分野の研究を橋渡しすることを目的とした包括的調査を行う。
参考スコア（独自算出の注目度）: 4.984401393225283
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The remarkable success of transformers in the field of natural language processing has sparked the interest of the speech-processing community, leading to an exploration of their potential for modeling long-range dependencies within speech sequences. Recently, transformers have gained prominence across various speech-related domains, including automatic speech recognition, speech synthesis, speech translation, speech para-linguistics, speech enhancement, spoken dialogue systems, and numerous multimodal applications. In this paper, we present a comprehensive survey that aims to bridge research studies from diverse subfields within speech technology. By consolidating findings from across the speech technology landscape, we provide a valuable resource for researchers interested in harnessing the power of transformers to advance the field. We identify the challenges encountered by transformers in speech processing while also offering insights into potential solutions to address these issues.
Abstract（参考訳）: 自然言語処理分野におけるトランスフォーマーの顕著な成功は、音声処理コミュニティの関心を喚起し、音声シーケンス内の長距離依存関係をモデル化する可能性を探るに至った。近年, 音声認識, 音声合成, 音声翻訳, 音声パラ言語学, 音声強調, 音声対話システム, 多数のマルチモーダルアプリケーションなど, 音声関連分野において, トランスフォーマーが注目されている。本稿では,音声技術における様々なサブフィールドの研究を橋渡しすることを目的とした総合的な調査を行う。音声技術全体の知見を集約することにより、トランスフォーマーの力を利用してフィールドを前進させることに関心のある研究者に貴重なリソースを提供する。音声処理においてトランスフォーマタが直面する課題を特定しながら,この問題に対する潜在的な解決策に関する洞察を提供する。

関連論文リスト

Generative Adversarial Network based Voice Conversion: Techniques, Challenges, and Recent Advancements [12.716872085463887]
GAN(Generative Adversarial Network)ベースのアプローチは,その強力な特徴マッピング能力と,高度に現実的な音声を生成する可能性に対して,大きな注目を集めている。本稿では,音声変換環境の包括的分析を行い,重要な技術,重要な課題,現場におけるGANの変容的影響を明らかにする。全体として、この研究は、音声変換技術における最先端のSOTA(State-of-the-art)の推進を目指す研究者、開発者、実践者にとって不可欠なリソースとなっている。
論文参考訳（メタデータ） (2025-04-27T11:22:21Z)
WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文参考訳（メタデータ） (2024-11-15T04:16:45Z)
Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。提案手法では,WavLMとWhisperエンコーダを用いて,話者の特徴や意味的文脈に敏感な多面的音声表現を抽出する。包括的実験により,カクテルパーティーのシナリオにおいて提案システムであるMT-LLMが期待できる性能を示した。
論文参考訳（メタデータ） (2024-09-13T07:28:28Z)
Speech Recognition Transformers: Topological-lingualism Perspective [5.874509965718588]
本稿では,音声のモータリティを指向したトランスフォーマー技術に関する包括的調査を行う。本調査の主な内容は,(1)従来のASR,エンド・ツー・エンド・トランスフォーマー・エコシステム,(2)言語主義パラダイムによる音声の基本モデルなどである。
論文参考訳（メタデータ） (2024-08-27T12:15:43Z)
SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。音声処理タスクを音声単位生成タスクに再構成する。提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文参考訳（メタデータ） (2024-08-23T13:00:10Z)
Survey: Transformer-based Models in Data Modality Conversion [0.8136541584281987]
モダリティ・コンバージョン(Modality Conversion)は、人間が知覚情報を統合して解釈する方法を模倣して、ある形態の表現から別の形式へのデータの変換を行う。本稿では, テキスト, 視覚, 音声の一次モーダル性に適用されたトランスフォーマーモデルについて, アーキテクチャ, 変換手法, 応用について論じる。
論文参考訳（メタデータ） (2024-08-08T18:39:14Z)
Analyzing Speech Unit Selection for Textless Speech-to-Speech Translation [23.757896930482342]
本研究は、下流タスクの研究を通して選択プロセスについて考察する。再生性能のよいユニットは、翻訳効率を高めるユニットと必ずしも相関しない。
論文参考訳（メタデータ） (2024-07-08T08:53:26Z)
TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文参考訳（メタデータ） (2024-05-28T04:11:37Z)
A Comprehensive Survey on Applications of Transformers for Deep Learning Tasks [60.38369406877899]
Transformerは、シーケンシャルデータ内のコンテキスト関係を理解するために自己認識メカニズムを使用するディープニューラルネットワークである。 Transformerモデルは、入力シーケンス要素間の長い依存関係を処理し、並列処理を可能にする。我々の調査では、トランスフォーマーベースのモデルのためのトップ5のアプリケーションドメインを特定します。
論文参考訳（メタデータ） (2023-06-11T23:13:51Z)
SpeechFormer++: A Hierarchical Efficient Framework for Paralinguistic Speech Processing [17.128885611538486]
パラ言語音声処理は、感情分析や神経認知障害分析などの多くの問題に対処する上で重要である。音声の特徴を考察し、パラ言語音声処理のための一般的な構造ベースフレームワークであるSpeechFormer++を提案する。 SpeechFormer++は、音声感情認識(IEMOCAP & MELD)、うつ病分類(DAIC-WOZ)、アルツハイマー病検出(Pitt)タスクに基づいて評価される。
論文参考訳（メタデータ） (2023-02-27T11:48:54Z)
A Review of Speaker Diarization: Recent Advances with Deep Learning [78.20151731627958]
スピーカーダイアリゼーションは、スピーカーのアイデンティティに対応するクラスでオーディオまたはビデオ録画をラベル付けするタスクです。ディープラーニング技術の台頭に伴い、話者ダイアリゼーションのためのさらなる急速な進歩がなされている。話者ダイアリゼーションシステムが音声認識アプリケーションとどのように統合されているかについて議論する。
論文参考訳（メタデータ） (2021-01-24T01:28:05Z)
Filling the Gap of Utterance-aware and Speaker-aware Representation for Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文参考訳（メタデータ） (2020-09-14T15:07:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。