論文の概要: Artificial Disfluency Detection, Uh No, Disfluency Generation for the
Masses
- arxiv url: http://arxiv.org/abs/2211.09235v1
- Date: Wed, 16 Nov 2022 22:00:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 16:02:19.065099
- Title: Artificial Disfluency Detection, Uh No, Disfluency Generation for the
Masses
- Title(参考訳): 人為的不流動性検出 人為的不流動性検出 人為的不流動性発生
- Authors: T. Passali, T. Mavropoulos, G. Tsoumakas, G. Meditskos and S.
Vrochidis
- Abstract要約: 本研究は,流布テキストから人工的不一致を自動的に生成する手法である LARD を提案する。
LARDは、reparandum/interregnumアノテーションスキームに基づいて、様々な種類の分散(繰り返し、置換、再起動)をシミュレートすることができる。
提案手法はフロートテキストのみを必要とするため,アノテートされた非フロートデータの要求を回避して,直接トレーニングに使用することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing approaches for disfluency detection typically require the existence
of large annotated datasets. However, current datasets for this task are
limited, suffer from class imbalance, and lack some types of disfluencies that
can be encountered in real-world scenarios. This work proposes LARD, a method
for automatically generating artificial disfluencies from fluent text. LARD can
simulate all the different types of disfluencies (repetitions, replacements and
restarts) based on the reparandum/interregnum annotation scheme. In addition,
it incorporates contextual embeddings into the disfluency generation to produce
realistic context-aware artificial disfluencies. Since the proposed method
requires only fluent text, it can be used directly for training, bypassing the
requirement of annotated disfluent data. Our empirical evaluation demonstrates
that LARD can indeed be effectively used when no or only a few data are
available. Furthermore, our detailed analysis suggests that the proposed method
generates realistic disfluencies and increases the accuracy of existing
disfluency detectors.
- Abstract(参考訳): 既存の拡散検出のアプローチは、通常、大きな注釈付きデータセットの存在を必要とする。
しかし、このタスクの現在のデータセットは制限されており、クラス不均衡に悩まされており、現実のシナリオで遭遇する可能性のあるある種の相反がない。
本研究は,流布テキストから人工的不一致を自動的に生成するLARDを提案する。
LARDは、reparandum/interregnumアノテーションスキームに基づいて、様々な種類の分散(繰り返し、置換、再起動)をシミュレートすることができる。
さらに、コンテキスト埋め込みを分散生成に組み込んで、現実的なコンテキスト認識人工的分散を生成する。
提案手法は, 流行ったテキストのみを必要とするため, アノテーテッド・ディスフルエント・データの要求を回避して, 直接トレーニングに使用できる。
我々の経験的評価は、わずかなデータしか利用できない場合、実際にLARDが有効であることを示す。
さらに,本手法は現実的な拡散を発生させ,既存の拡散検知器の精度を高めることが示唆された。
関連論文リスト
- YOLO-Stutter: End-to-end Region-Wise Speech Dysfluency Detection [5.42845980208244]
YOLO-Stutterは、時間的精度でディファレンシを検出する最初のエンドツーエンド手法である。
VCTK-StutterとVCTK-TTSは、繰り返し、ブロック、欠落、置換、延長といった自然な発声障害をシミュレートする。
論文 参考訳(メタデータ) (2024-08-27T11:31:12Z) - Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。
混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。
UE識別のための反復フィルタリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T13:26:13Z) - Boosting Disfluency Detection with Large Language Model as Disfluency Generator [8.836888435915077]
本稿では,拡散検出のための軽量なデータ拡張手法を提案する。
拡張データとして,大言語モデル(LLM)を用いて不自由な文を生成する。
文の質を向上させるために不確実性を考慮したデータフィルタリング手法を適用する。
論文 参考訳(メタデータ) (2024-03-13T04:14:33Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z) - An Invariant Learning Characterization of Controlled Text Generation [25.033675230270212]
制御生成(英語: Controlled generation)とは、興味のある文体や意味的な属性を含むテキストを作成する問題である。
ユーザプロンプトに応答するテキストの分布が、予測器がトレーニングした分布と異なる場合、制御された生成の性能は低下する可能性があることを示す。
論文 参考訳(メタデータ) (2023-05-31T21:35:08Z) - LARD: Large-scale Artificial Disfluency Generation [0.0]
複雑で現実的な人工的不一致を少ない労力で生成する手法である LARD を提案する。
提案手法は, 繰り返し, 置換, 再起動の3種類の相反を処理できる。
4つの異なるタスクで使用できる、分散を持つ新しい大規模データセットをリリースする。
論文 参考訳(メタデータ) (2022-01-13T16:02:36Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。
我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。
我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文 参考訳(メタデータ) (2021-01-29T22:03:17Z) - Detecting Hallucinated Content in Conditional Neural Sequence Generation [165.68948078624499]
出力シーケンスの各トークンが(入力に含まれていない)幻覚化されているかどうかを予測するタスクを提案する。
また、合成データに微調整された事前学習言語モデルを用いて幻覚を検出する方法についても紹介する。
論文 参考訳(メタデータ) (2020-11-05T00:18:53Z) - Overcoming the curse of dimensionality with Laplacian regularization in
semi-supervised learning [80.20302993614594]
ラプラシア正規化の欠点を克服するための統計的解析を提供する。
望ましい振る舞いを示すスペクトルフィルタリング法を多数発表する。
我々は,本手法を大量のデータで利用できるようにするために,現実的な計算ガイドラインを提供する。
論文 参考訳(メタデータ) (2020-09-09T14:28:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。