Fugu-MT 論文翻訳(概要): End2End Acoustic to Semantic Transduction

論文の概要: End2End Acoustic to Semantic Transduction

arxiv url: http://arxiv.org/abs/2102.01013v1
Date: Mon, 1 Feb 2021 17:42:59 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-02 16:13:18.244500
Title: End2End Acoustic to Semantic Transduction
Title（参考訳）: End2End音響とセマンティックトランスダクション
Authors: Valentin Pelloin, Nathalie Camelin, Antoine Laurent, Renato De Mori, Antoine Caubri\`ere, Yannick Est\`eve, Sylvain Meignier
Abstract要約: そこで本研究では,エンドツーエンドの列から列への音声言語理解モデルを提案する。意味的内容を仮説化するために、コンテキスト音響特徴を確実に選択する。
参考スコア（独自算出の注目度）: 10.737815919429867
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we propose a novel end-to-end sequence-to-sequence spoken language understanding model using an attention mechanism. It reliably selects contextual acoustic features in order to hypothesize semantic contents. An initial architecture capable of extracting all pronounced words and concepts from acoustic spans is designed and tested. With a shallow fusion language model, this system reaches a 13.6 concept error rate (CER) and an 18.5 concept value error rate (CVER) on the French MEDIA corpus, achieving an absolute 2.8 points reduction compared to the state-of-the-art. Then, an original model is proposed for hypothesizing concepts and their values. This transduction reaches a 15.4 CER and a 21.6 CVER without any new type of context.
Abstract（参考訳）: 本稿では,注意機構を用いた新しいエンドツーエンドシーケンス・ツー・シーケンス音声言語理解モデルを提案する。意味的内容を仮説化するために、コンテキスト音響特徴を確実に選択する。アコースティックスパンからすべての発音された単語や概念を抽出できる初期アーキテクチャを設計、試験する。浅い融合言語モデルでは、このシステムはフランスのMEDIAコーパスにおける13.6のコンセプトエラーレート(CER)と18.5のコンセプト値エラーレート(CVER)に達し、最先端技術と比較して絶対2.8ポイントの削減を実現している。そこで,概念とその価値を仮説化するモデルを提案する。この変換は、新しいタイプのコンテキストなしで15.4 CERと21.6 CVERに達する。

関連論文リスト

Scaling Open Discrete Audio Foundation Models with Interleaved Semantic, Acoustic, and Text Tokens [62.56027815951259]
現在のオーディオ言語モデルは、主にテキストファーストであり、事前訓練されたテキストLLMバックボーンを拡張するか、意味のみのオーディオトークンに依存する。本稿では,大規模音声に次トーケン予測を適用したネイティブオーディオ基礎モデルの系統的研究を行った。
論文参考訳（メタデータ） (2026-02-18T18:32:46Z)
Scaling Concept With Text-Guided Diffusion Models [53.80799139331966]
概念を置き換える代わりに、概念自体を強化するか、あるいは抑圧できるだろうか? ScalingConceptは、分解された概念を、新しい要素を導入することなく、実際の入力でスケールアップまたはスケールダウンする、シンプルで効果的な方法である。さらに重要なのは、ScalingConceptは画像とオーディオドメインにまたがる様々な新しいゼロショットアプリケーションを可能にすることだ。
論文参考訳（メタデータ） (2024-10-31T17:09:55Z)
Listenable Maps for Zero-Shot Audio Classifiers [12.446324804274628]
我々はZero-Shotコンテキストで初めてLMAC-Z(Listenable Maps for Audio)を紹介した。提案手法は,異なるテキストプロンプトとよく相関する有意義な説明を生成する。
論文参考訳（メタデータ） (2024-05-27T19:25:42Z)
AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文参考訳（メタデータ） (2024-02-12T15:41:22Z)
TOLD: A Novel Two-Stage Overlap-Aware Framework for Speaker Diarization [54.41494515178297]
話者ダイアリゼーションを単一ラベル分類問題として再検討する。話者の重なりと依存性を明示的にモデル化できる重なり認識型EEND(EEND-OLA)モデルを提案する。オリジナルのEENDと比較すると、提案されたEEND-OLAはダイアリゼーションエラー率において14.39%の相対的な改善を実現している。
論文参考訳（メタデータ） (2023-03-08T05:05:26Z)
Progressive Tree-Structured Prototype Network for End-to-End Image Captioning [74.8547752611337]
本稿では,新しいプログレッシブツリー構造型プロトタイプネットワーク(PTSN)を提案する。 PTSNは、階層的テキスト意味論をモデル化することによって、適切な意味論で予測語の範囲を狭める最初の試みである。提案手法は,144.2%(シングルモデル),146.5%(4モデルのアンサンブル),141.4%(c5),143.9%(c40)のCIDErを公式オンラインテストサーバ上でスコアする。
論文参考訳（メタデータ） (2022-11-17T11:04:00Z)
A Conformer Based Acoustic Model for Robust Automatic Speech Recognition [63.242128956046024]
提案手法は,二方向長短期記憶(BLSTM)モデルと発話ワイドドロップアウトと反復話者適応を用いて,最先端の音声認識システムを構築した。コンフォーマーエンコーダは、音響モデリングに畳み込み強化されたアテンションメカニズムを使用する。提案システムはCHiME-4コーパスの単調なASRタスクに基づいて評価される。
論文参考訳（メタデータ） (2022-03-01T20:17:31Z)
Speech Summarization using Restricted Self-Attention [79.89680891246827]
音声要約に最適化された単一モデルを提案する。提案モデルでは,ハウ-2コーパスの音声を直接要約する手法が提案されている。
論文参考訳（メタデータ） (2021-10-12T18:21:23Z)
Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文参考訳（メタデータ） (2020-03-17T22:01:12Z)
Statistical Context-Dependent Units Boundary Correction for Corpus-based Unit-Selection Text-to-Speech [1.4337588659482519]
本稿では, 分割の精度を向上させるために, 単位選択テキスト音声(TTS)システムに適用するための, 話者適応のための革新的な手法を提案する。従来の話者適応手法とは違って,言語分析手法を応用した文脈依存特性のみの利用を目標としている。
論文参考訳（メタデータ） (2020-03-05T12:42:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。