Fugu-MT 論文翻訳(概要): A Glance is Enough: Extract Target Sentence By Looking at A keyword

論文の概要: A Glance is Enough: Extract Target Sentence By Looking at A keyword

arxiv url: http://arxiv.org/abs/2310.05352v1
Date: Mon, 9 Oct 2023 02:28:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-12 08:09:06.906572
Title: A Glance is Enough: Extract Target Sentence By Looking at A keyword
Title（参考訳）: 目視だけで十分:キーワードを見て対象文を抽出する
Authors: Ying Shi, Dong Wang, Lantian Li, Jiqing Han
Abstract要約: 本稿では,キーワードのみを入力として多話者音声から対象文を抽出する可能性を検討する。社会保障のアプリケーションでは、キーワードは"help"であり、助けを求める人が他の話者を無視しながら、何を話し合っているかを特定することが目的である。本稿では,Transformer アーキテクチャを用いてキーワードと発話の両方を埋め込んで,適切な内容を選択するためのクロスアテンション機構を提案する。
参考スコア（独自算出の注目度）: 26.77461726960814
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper investigates the possibility of extracting a target sentence from multi-talker speech using only a keyword as input. For example, in social security applications, the keyword might be "help", and the goal is to identify what the person who called for help is articulating while ignoring other speakers. To address this problem, we propose using the Transformer architecture to embed both the keyword and the speech utterance and then rely on the cross-attention mechanism to select the correct content from the concatenated or overlapping speech. Experimental results on Librispeech demonstrate that our proposed method can effectively extract target sentences from very noisy and mixed speech (SNR=-3dB), achieving a phone error rate (PER) of 26\%, compared to the baseline system's PER of 96%.
Abstract（参考訳）: 本稿では,キーワードのみを入力として多話者音声から対象文を抽出する可能性を検討する。例えば、社会保障アプリケーションでは、キーワードは"help"であり、目的は、助けを求めた人が他の話者を無視しながら発言しているものを識別することである。この問題に対処するために,Transformer アーキテクチャを用いてキーワードと発話の両方を埋め込んだ上で,連結あるいは重複した音声から正しい内容を選択するためのクロスアテンション機構を提案する。 Librispeech を用いた実験結果から,提案手法は音声の雑音と混合音声(SNR=-3dB)からターゲット文を効果的に抽出し,音声誤り率 (PER) が 26 % であるのに対し,ベースライン方式のPER は 96% であった。

関連論文リスト

Empowering Whisper as a Joint Multi-Talker and Target-Talker Speech Recognition System [73.34663391495616]
本稿では,複数話者と目標話者の音声認識タスクを併用する先駆的手法を提案する。具体的には、Whisperを凍結し、Sidecarセパレータをエンコーダに差し込み、複数の話者に対する混合埋め込みを分離する。 AishellMix Mandarin データセット上で,マルチストーカー ASR 上で許容できるゼロショット性能を提供する。
論文参考訳（メタデータ） (2024-07-13T09:28:24Z)
Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
本稿では,ペア音声とテキストコーパスを使わずにASRシステムを開発するという課題に取り組む。音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。この革新的なモデルは、レキシコンフリー環境下での以前の教師なしASRモデルの性能を上回る。
論文参考訳（メタデータ） (2024-06-12T16:30:58Z)
Automatic Counterfactual Augmentation for Robust Text Classification Based on Word-Group Search [12.894936637198471]
一般に、ラベルと表面的関連を生じると、キーワードはショートカットと見なされ、結果として誤った予測となる。キーワードの組み合わせの因果効果を捉え,予測に最も影響を与える組み合わせを注文する,新しいWord-Groupマイニング手法を提案する。提案手法は,効率的なポストホック解析とビームサーチに基づいて,マイニング効果の確保と複雑さの低減を図っている。
論文参考訳（メタデータ） (2023-07-01T02:26:34Z)
To Wake-up or Not to Wake-up: Reducing Keyword False Alarm by Successive Refinement [58.96644066571205]
既存の深層キーワードスポッティング機構は逐次リファインメントにより改善可能であることを示す。 13Kパラメーターから2.41Mパラメーターまで、複数のモデルにまたがって、連続精製法はFAを最大8.5%削減する。提案手法は"plug-and-play"であり,任意の深いキーワードスポッティングモデルに適用できる。
論文参考訳（メタデータ） (2023-04-06T23:49:29Z)
Symmetric Saliency-based Adversarial Attack To Speaker Identification [17.087523686496958]
我々は、対称サリエンシに基づくエンコーダデコーダ(SSED)と呼ばれる、新しい世代ネットワークベースのアプローチを提案する。まず,新規な唾液マップデコーダを用いて,対象話者識別システムの決定に対する音声サンプルの重要性を学習する。第2に,話者を音源から遠ざける角度損失関数を提案する。
論文参考訳（メタデータ） (2022-10-30T08:54:02Z)
Question-Interlocutor Scope Realized Graph Modeling over Key Utterances for Dialogue Reading Comprehension [61.55950233402972]
本稿では,対話読解のためのキーワード抽出手法を提案する。複数の連続した発話によって形成された単位に対して予測を行い、より多くの回答を含む発話を実現する。発話のテキスト上に構築されたグラフとして,質問-対話者スコープ実現グラフ(QuISG)モデルを提案する。
論文参考訳（メタデータ） (2022-10-26T04:00:42Z)
Dictionary Attacks on Speaker Verification [15.00667613025837]
様々な音声表現と脅威モデルで使用できる攻撃の汎用的定式化を導入する。攻撃者は、逆最適化を用いて、シード音声サンプルとプロキシ集団との話者埋め込みの生の類似性を最大化する。この攻撃は、複数の試みと組み合わさって、これらのシステムのセキュリティに関する深刻な問題にさらに開きます。
論文参考訳（メタデータ） (2022-04-24T15:31:41Z)
DEIM: An effective deep encoding and interaction model for sentence matching [0.0]
本稿では,ディープエンコーディングとインタラクションに基づく文マッチング手法を提案する。エンコーダ層では、1つの文を符号化する過程で他の文の情報を参照し、その後、アルゴリズムを用いて情報を融合する。インタラクション層では、双方向の注意機構と自己注意機構を用いて深い意味情報を得る。
論文参考訳（メタデータ） (2022-03-20T07:59:42Z)
Speaker Embedding-aware Neural Diarization for Flexible Number of Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文参考訳（メタデータ） (2021-11-28T12:51:04Z)
Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文参考訳（メタデータ） (2021-03-12T10:10:13Z)
Improving speaker discrimination of target speech extraction with time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。 SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文参考訳（メタデータ） (2020-01-23T05:36:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。