論文の概要: LARD: Large-scale Artificial Disfluency Generation
- arxiv url: http://arxiv.org/abs/2201.05041v1
- Date: Thu, 13 Jan 2022 16:02:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-14 13:59:35.999133
- Title: LARD: Large-scale Artificial Disfluency Generation
- Title(参考訳): LARD: 大規模人工拡散発生
- Authors: T. Passali, T. Mavropoulos, G. Tsoumakas, G. Meditskos, S. Vrochidis
- Abstract要約: 複雑で現実的な人工的不一致を少ない労力で生成する手法である LARD を提案する。
提案手法は, 繰り返し, 置換, 再起動の3種類の相反を処理できる。
4つの異なるタスクで使用できる、分散を持つ新しい大規模データセットをリリースする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Disfluency detection is a critical task in real-time dialogue systems.
However, despite its importance, it remains a relatively unexplored field,
mainly due to the lack of appropriate datasets. At the same time, existing
datasets suffer from various issues, including class imbalance issues, which
can significantly affect the performance of the model on rare classes, as it is
demonstrated in this paper. To this end, we propose LARD, a method for
generating complex and realistic artificial disfluencies with little effort.
The proposed method can handle three of the most common types of disfluencies:
repetitions, replacements and restarts. In addition, we release a new
large-scale dataset with disfluencies that can be used on four different tasks:
disfluency detection, classification, extraction and correction. Experimental
results on the LARD dataset demonstrate that the data produced by the proposed
method can be effectively used for detecting and removing disfluencies, while
also addressing limitations of existing datasets.
- Abstract(参考訳): 拡散検出はリアルタイム対話システムにおいて重要な課題である。
しかし、その重要性にもかかわらず、適切なデータセットが欠如しているため、比較的未調査の分野である。
同時に、既存のデータセットはクラス不均衡問題を含む様々な問題に苦しんでおり、本論文で示しているように、レアクラスのモデルのパフォーマンスに大きな影響を与える可能性がある。
この目的のために, 複雑で現実的な人工的分散を少ない労力で生成する手法である LARD を提案する。
提案手法は, 繰り返し, 交換, 再起動という, 最も一般的な3種類の不純物を扱うことができる。
さらに, 分散検出, 分類, 抽出, 修正の4つのタスクで使用できる, 分散を伴う新しい大規模データセットもリリースした。
LARDデータセットの実験結果から,提案手法で生成したデータは,既存のデータセットの制限に対処しつつ,分散の検出と除去に有効に利用できることが示された。
関連論文リスト
- A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Domain-invariant Clinical Representation Learning by Bridging Data
Distribution Shift across EMR Datasets [16.317118701435742]
適切な診断を行い、パーソナライズされた治療計画を設計する上で、効果的な予後モデルが期待されている。
疾患の初期段階では、限られたデータ収集と臨床経験に加えて、プライバシと倫理の懸念から、参照のためのデータ可用性が制限される可能性がある。
本稿では、ソースデータセットからターゲットデータセットへの遷移モデルを構築するためのドメイン不変表現学習手法を紹介する。
論文 参考訳(メタデータ) (2023-10-11T18:32:21Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Temporal Output Discrepancy for Loss Estimation-based Active Learning [65.93767110342502]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。
本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-12-20T19:29:37Z) - Artificial Disfluency Detection, Uh No, Disfluency Generation for the
Masses [0.0]
本研究は,流布テキストから人工的不一致を自動的に生成する手法である LARD を提案する。
LARDは、reparandum/interregnumアノテーションスキームに基づいて、様々な種類の分散(繰り返し、置換、再起動)をシミュレートすることができる。
提案手法はフロートテキストのみを必要とするため,アノテートされた非フロートデータの要求を回避して,直接トレーニングに使用することができる。
論文 参考訳(メタデータ) (2022-11-16T22:00:02Z) - Multiple Instance Learning for Detecting Anomalies over Sequential
Real-World Datasets [2.427831679672374]
MIL(Multiple Instance Learning)は、トレーニングデータセットにおけるラベルの不完全な知識に関する問題に対して有効であることが示されている。
MILに基づく定式化と,異なる設計決定に基づいて,このフレームワークの様々なアルゴリズムのインスタンス化を提案する。
このフレームワークは、さまざまな現実世界のアプリケーションドメインから生じる多様なデータセットをうまく一般化する。
論文 参考訳(メタデータ) (2022-10-04T16:02:09Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Multi-Source Causal Inference Using Control Variates [81.57072928775509]
本稿では,複数のデータソースから因果効果を推定するアルゴリズムを提案する。
理論的には、これはATE推定値の分散を減少させる。
このフレームワークを結果選択バイアスの下で観測データからの推論に適用する。
論文 参考訳(メタデータ) (2021-03-30T21:20:51Z) - Meta-learning One-class Classifiers with Eigenvalue Solvers for
Supervised Anomaly Detection [55.888835686183995]
教師付き異常検出のためのニューラルネットワークに基づくメタラーニング手法を提案する。
提案手法は,既存の異常検出法や少数ショット学習法よりも優れた性能を実現することを実験的に実証した。
論文 参考訳(メタデータ) (2021-03-01T01:43:04Z) - Out-Of-Bag Anomaly Detection [0.9449650062296822]
データ異常は、実世界のデータセットでユビキタスであり、機械学習(ML)システムに悪影響を及ぼす可能性がある。
本稿では,新しいモデルに基づく異常検出手法を提案し,その手法をアウト・オブ・バグ検出と呼ぶ。
本手法は,家庭評価のケーススタディを通じて,データ前処理のステップとして,MLシステムの精度と信頼性を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-09-20T06:01:52Z) - Meta Learning for Causal Direction [29.00522306460408]
小型データ設定における原因と効果の区別を可能にする新しい生成モデルを提案する。
提案手法は, 各種合成データと実世界のデータを用いて実証し, 種々のデータセットサイズにおける方向検出の精度を高い精度で維持可能であることを示す。
論文 参考訳(メタデータ) (2020-07-06T15:12:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。