論文の概要: A Glance is Enough: Extract Target Sentence By Looking at A keyword
- arxiv url: http://arxiv.org/abs/2310.05352v1
- Date: Mon, 9 Oct 2023 02:28:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 08:09:06.906572
- Title: A Glance is Enough: Extract Target Sentence By Looking at A keyword
- Title(参考訳): 目視だけで十分:キーワードを見て対象文を抽出する
- Authors: Ying Shi, Dong Wang, Lantian Li, Jiqing Han
- Abstract要約: 本稿では,キーワードのみを入力として多話者音声から対象文を抽出する可能性を検討する。
社会保障のアプリケーションでは、キーワードは"help"であり、助けを求める人が他の話者を無視しながら、何を話し合っているかを特定することが目的である。
本稿では,Transformer アーキテクチャを用いてキーワードと発話の両方を埋め込んで,適切な内容を選択するためのクロスアテンション機構を提案する。
- 参考スコア(独自算出の注目度): 26.77461726960814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates the possibility of extracting a target sentence from
multi-talker speech using only a keyword as input. For example, in social
security applications, the keyword might be "help", and the goal is to identify
what the person who called for help is articulating while ignoring other
speakers. To address this problem, we propose using the Transformer
architecture to embed both the keyword and the speech utterance and then rely
on the cross-attention mechanism to select the correct content from the
concatenated or overlapping speech. Experimental results on Librispeech
demonstrate that our proposed method can effectively extract target sentences
from very noisy and mixed speech (SNR=-3dB), achieving a phone error rate (PER)
of 26\%, compared to the baseline system's PER of 96%.
- Abstract(参考訳): 本稿では,キーワードのみを入力として多話者音声から対象文を抽出する可能性を検討する。
例えば、社会保障アプリケーションでは、キーワードは"help"であり、目的は、助けを求めた人が他の話者を無視しながら発言しているものを識別することである。
この問題に対処するために,Transformer アーキテクチャを用いてキーワードと発話の両方を埋め込んだ上で,連結あるいは重複した音声から正しい内容を選択するためのクロスアテンション機構を提案する。
Librispeech を用いた実験結果から,提案手法は音声の雑音と混合音声(SNR=-3dB)からターゲット文を効果的に抽出し,音声誤り率 (PER) が 26 % であるのに対し,ベースライン方式のPER は 96% であった。
関連論文リスト
- Empowering Whisper as a Joint Multi-Talker and Target-Talker Speech Recognition System [73.34663391495616]
本稿では,複数話者と目標話者の音声認識タスクを併用する先駆的手法を提案する。
具体的には、Whisperを凍結し、Sidecarセパレータをエンコーダに差し込み、複数の話者に対する混合埋め込みを分離する。
AishellMix Mandarin データセット上で,マルチストーカー ASR 上で許容できるゼロショット性能を提供する。
論文 参考訳(メタデータ) (2024-07-13T09:28:24Z) - Automatic Counterfactual Augmentation for Robust Text Classification
Based on Word-Group Search [12.894936637198471]
一般に、ラベルと表面的関連を生じると、キーワードはショートカットと見なされ、結果として誤った予測となる。
キーワードの組み合わせの因果効果を捉え,予測に最も影響を与える組み合わせを注文する,新しいWord-Groupマイニング手法を提案する。
提案手法は,効率的なポストホック解析とビームサーチに基づいて,マイニング効果の確保と複雑さの低減を図っている。
論文 参考訳(メタデータ) (2023-07-01T02:26:34Z) - To Wake-up or Not to Wake-up: Reducing Keyword False Alarm by Successive
Refinement [58.96644066571205]
既存の深層キーワードスポッティング機構は逐次リファインメントにより改善可能であることを示す。
13Kパラメーターから2.41Mパラメーターまで、複数のモデルにまたがって、連続精製法はFAを最大8.5%削減する。
提案手法は"plug-and-play"であり,任意の深いキーワードスポッティングモデルに適用できる。
論文 参考訳(メタデータ) (2023-04-06T23:49:29Z) - Symmetric Saliency-based Adversarial Attack To Speaker Identification [17.087523686496958]
我々は、対称サリエンシに基づくエンコーダデコーダ(SSED)と呼ばれる、新しい世代ネットワークベースのアプローチを提案する。
まず,新規な唾液マップデコーダを用いて,対象話者識別システムの決定に対する音声サンプルの重要性を学習する。
第2に,話者を音源から遠ざける角度損失関数を提案する。
論文 参考訳(メタデータ) (2022-10-30T08:54:02Z) - Question-Interlocutor Scope Realized Graph Modeling over Key Utterances
for Dialogue Reading Comprehension [61.55950233402972]
本稿では,対話読解のためのキーワード抽出手法を提案する。
複数の連続した発話によって形成された単位に対して予測を行い、より多くの回答を含む発話を実現する。
発話のテキスト上に構築されたグラフとして,質問-対話者スコープ実現グラフ(QuISG)モデルを提案する。
論文 参考訳(メタデータ) (2022-10-26T04:00:42Z) - Dictionary Attacks on Speaker Verification [15.00667613025837]
様々な音声表現と脅威モデルで使用できる攻撃の汎用的定式化を導入する。
攻撃者は、逆最適化を用いて、シード音声サンプルとプロキシ集団との話者埋め込みの生の類似性を最大化する。
この攻撃は、複数の試みと組み合わさって、これらのシステムのセキュリティに関する深刻な問題にさらに開きます。
論文 参考訳(メタデータ) (2022-04-24T15:31:41Z) - DEIM: An effective deep encoding and interaction model for sentence
matching [0.0]
本稿では,ディープエンコーディングとインタラクションに基づく文マッチング手法を提案する。
エンコーダ層では、1つの文を符号化する過程で他の文の情報を参照し、その後、アルゴリズムを用いて情報を融合する。
インタラクション層では、双方向の注意機構と自己注意機構を用いて深い意味情報を得る。
論文 参考訳(メタデータ) (2022-03-20T07:59:42Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Improving speaker discrimination of target speech extraction with
time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。
SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。
実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2020-01-23T05:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。