論文の概要: Filler Word Detection and Classification: A Dataset and Benchmark
- arxiv url: http://arxiv.org/abs/2203.15135v1
- Date: Mon, 28 Mar 2022 22:53:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 16:42:12.869885
- Title: Filler Word Detection and Classification: A Dataset and Benchmark
- Title(参考訳): Filler 単語の検出と分類:データセットとベンチマーク
- Authors: Ge Zhu, Juan-Pablo Caceres, Justin Salamon
- Abstract要約: 本稿では,35Kの注記語と50Kの注釈を付加した新しい音声データセットPodcastFillersを提案する。
本稿では,VAD と ASR を利用して補完語候補を検出するパイプラインと,補完語型を区別する分類器を提案する。
我々のパイプラインは最先端の結果を得ることができ、ASRの活用はキーワードスポッティングのアプローチよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 12.265884242572325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Filler words such as `uh' or `um' are sounds or words people use to signal
they are pausing to think. Finding and removing filler words from recordings is
a common and tedious task in media editing. Automatically detecting and
classifying filler words could greatly aid in this task, but few studies have
been published on this problem. A key reason is the absence of a dataset with
annotated filler words for training and evaluation. In this work, we present a
novel speech dataset, PodcastFillers, with 35K annotated filler words and 50K
annotations of other sounds that commonly occur in podcasts such as breaths,
laughter, and word repetitions. We propose a pipeline that leverages VAD and
ASR to detect filler candidates and a classifier to distinguish between filler
word types. We evaluate our proposed pipeline on PodcastFillers, compare to
several baselines, and present a detailed ablation study. In particular, we
evaluate the importance of using ASR and how it compares to a
transcription-free approach resembling keyword spotting. We show that our
pipeline obtains state-of-the-art results, and that leveraging ASR strongly
outperforms a keyword spotting approach. We make PodcastFillers publicly
available, and hope our work serves as a benchmark for future research.
- Abstract(参考訳): uh」や「um」といったフィラー語は、人々が考えていることを暗示するために使う音や単語である。
録音からフィラー語の検索と削除は、メディア編集において一般的で面倒な作業である。
補充語の自動検出と分類は、この課題に大いに役立つが、この問題に関する研究はほとんど発表されていない。
重要な理由は、トレーニングと評価のために注釈付きフィラーワードを持つデータセットがないことである。
本稿では,新しい音声データセットpodcastfillersについて紹介する。3kの注釈付きフィラーワードと,息や笑い,単語の繰り返しといったポッドキャストで一般的に発生する他の音の5kアノテーションを備える。
本研究では,vadとasrを利用してフィラー候補を検出するパイプラインと,フィラーワードタイプを識別する分類器を提案する。
提案するパイプラインをPodcastFillersで評価し,いくつかのベースラインと比較し,詳細なアブレーション実験を行った。
特に,asrの使用の重要性と,キーワードスポッティングに類似した無転写アプローチとの比較について検討した。
我々のパイプラインは最先端の結果を得ることができ、ASRの活用はキーワードスポッティングのアプローチよりも優れていることを示す。
PodcastFillersを一般公開し、私たちの研究が将来の研究のベンチマークになることを期待しています。
関連論文リスト
- An Evaluation of Sindhi Word Embedding in Semantic Analogies and Downstream Tasks [2.3624125155742064]
我々は,複数のWebリソースから6100万以上の単語をクロールする新しい単語埋め込み型コーパスを提案する。
クロールデータから不要なテキストをフィルタリングするための前処理パイプラインを設計する。
クリーニングされた語彙は、最先端の連続バグ・オブ・ワード、スキップグラム、GloVeワード埋め込みアルゴリズムに供給される。
論文 参考訳(メタデータ) (2024-08-28T11:36:29Z) - ROUGE-K: Do Your Summaries Have Keywords? [11.393728547335217]
要約における内容関連単語は,効率的な情報伝達において重要な役割を担っている。
極端な要約モデルの既存の評価指標は、要約のキーワードに明確な注意を払わない。
変換器モデルに単語の重要度を組み込むための4つの手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:54:56Z) - Open-vocabulary Keyword-spotting with Adaptive Instance Normalization [18.250276540068047]
本稿では,キーワード条件付き正規化パラメータを出力するためにテキストエンコーダを訓練するキーワードスポッティングの新しい手法であるAdaKWSを提案する。
近年のキーワードスポッティングやASRベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-09-13T13:49:42Z) - Towards hate speech detection in low-resource languages: Comparing ASR
to acoustic word embeddings on Wolof and Swahili [16.424308444697015]
ラジオ放送におけるキーワードスポッティングによるヘイトスピーチの検出について検討する。
1つのアプローチは、ターゲットとする低リソース言語のための自動音声認識システムを構築することである。
音声セグメントを類似したベクトルを持つ空間にマッピングする音響単語埋め込みモデルと比較する。
論文 参考訳(メタデータ) (2023-06-01T07:25:10Z) - Sentiment-Aware Word and Sentence Level Pre-training for Sentiment
Analysis [64.70116276295609]
SentiWSPは、WordレベルとSentenceレベルの事前トレーニングタスクを組み合わせた、Sentiment対応の事前トレーニング言語モデルである。
SentiWSPは、様々な文レベルおよびアスペクトレベルの感情分類ベンチマーク上で、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-10-18T12:25:29Z) - Improving Contextual Recognition of Rare Words with an Alternate
Spelling Prediction Model [0.0]
Earnings21データセットに付随するコンテキストバイアスリストをリリースします。
2つの異なる復号アルゴリズムに適用した浅層融合文脈偏差の計算結果を示す。
稀な単語のリコールを34.7%改善するスペル予測モデルを提案する。
論文 参考訳(メタデータ) (2022-09-02T19:30:16Z) - UCPhrase: Unsupervised Context-aware Quality Phrase Tagging [63.86606855524567]
UCPhraseは、教師なしの文脈対応のフレーズタグである。
我々は,一貫した単語列から,高品質なフレーズを銀のラベルとして表現する。
我々の設計は、最先端の事前訓練、教師なし、遠隔管理の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-28T19:44:24Z) - Match-Ignition: Plugging PageRank into Transformer for Long-form Text
Matching [66.71886789848472]
実効性と効率性に対処する新しい階層型ノイズフィルタリングモデルであるMatch-Ignitionを提案する。
基本的なアイデアは、よく知られたPageRankアルゴリズムをTransformerに接続し、文と単語レベルの騒々しい情報を識別およびフィルタリングすることです。
文が長文の基本単位であるため、ノイズの多い文はたいてい簡単に検出できるので、PageRankを直接使用してそのような情報をフィルタリングする。
論文 参考訳(メタデータ) (2021-01-16T10:34:03Z) - R$^2$-Net: Relation of Relation Learning Network for Sentence Semantic
Matching [58.72111690643359]
文意味マッチングのための関係学習ネットワーク(R2-Net)を提案する。
最初にBERTを使用して、グローバルな視点から入力文をエンコードします。
次に、cnnベースのエンコーダは、ローカルな視点からキーワードやフレーズ情報をキャプチャするように設計されている。
関係情報抽出にラベルを十分に活用するために,関係分類タスクの自己教師付き関係性を導入する。
論文 参考訳(メタデータ) (2020-12-16T13:11:30Z) - Words aren't enough, their order matters: On the Robustness of Grounding
Visual Referring Expressions [87.33156149634392]
視覚的参照表現認識のための標準ベンチマークであるRefCOgを批判的に検討する。
83.7%のケースでは言語構造に関する推論は不要である。
比較学習とマルチタスク学習の2つの手法を提案し,ViLBERTのロバスト性を高める。
論文 参考訳(メタデータ) (2020-05-04T17:09:15Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。