論文の概要: Boosting Disfluency Detection with Large Language Model as Disfluency
Generator
- arxiv url: http://arxiv.org/abs/2403.08229v1
- Date: Wed, 13 Mar 2024 04:14:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 15:50:05.002622
- Title: Boosting Disfluency Detection with Large Language Model as Disfluency
Generator
- Title(参考訳): 大規模言語モデルを用いた拡散検出の高速化
発電機
- Authors: Zhenrong Cheng, Jiayan Guo, Hao Sun, Yan Zhang
- Abstract要約: 本稿では,拡散検出のための軽量なデータ拡張手法を提案する。
拡張データとして,大言語モデル(LLM)を用いて不自由な文を生成する。
文の質を向上させるために不確実性を考慮したデータフィルタリング手法を適用する。
- 参考スコア(独自算出の注目度): 9.653665778500454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current disfluency detection methods heavily rely on costly and scarce
human-annotated data. To tackle this issue, some approaches employ heuristic or
statistical features to generate disfluent sentences, partially improving
detection performance. However, these sentences often deviate from real-life
scenarios, constraining overall model enhancement. In this study, we propose a
lightweight data augmentation approach for disfluency detection, utilizing the
superior generative and semantic understanding capabilities of large language
model (LLM) to generate disfluent sentences as augmentation data. We leverage
LLM to generate diverse and more realistic sentences guided by specific
prompts, without the need for fine-tuning the LLM. Subsequently, we apply an
uncertainty-aware data filtering approach to improve the quality of the
generated sentences, utilized in training a small detection model for improved
performance. Experiments using enhanced data yielded state-of-the-art results.
The results showed that using a small amount of LLM-generated enhanced data can
significantly improve performance, thereby further enhancing
cost-effectiveness.
- Abstract(参考訳): 現在のディフルエンシ検出法は、人手による注釈付きデータに大きく依存している。
この問題に対処するためには、ヒューリスティックな特徴や統計的な特徴を用いて不適切な文を生成し、検出性能を部分的に改善するアプローチもある。
しかし、これらの文はしばしば現実のシナリオから逸脱し、全体的なモデル拡張を制約する。
本研究では,大言語モデル(LLM)のより優れた生成的・意味的理解機能を利用して,デフルエンシ検出のための軽量なデータ拡張手法を提案する。
LLMを微調整することなく、特定のプロンプトによって導かれる多様で現実的な文を生成する。
次に,不確実性を考慮したデータフィルタリング手法を適用し,文の質を向上し,小さな検出モデルを訓練して性能を向上させる。
強化されたデータを用いた実験は、最先端の結果を得た。
その結果, 少量のLCM生成データを用いることで, 性能が著しく向上し, コスト効率が向上することがわかった。
関連論文リスト
- LLM-DA: Data Augmentation via Large Language Models for Few-Shot Named
Entity Recognition [67.96794382040547]
$LLM-DA$は、数発のNERタスクのために、大きな言語モデル(LLM)に基づいた、新しいデータ拡張テクニックである。
提案手法では,14のコンテキスト書き換え戦略を採用し,同一タイプのエンティティ置換を設計し,ロバスト性を高めるためにノイズ注入を導入する。
論文 参考訳(メタデータ) (2024-02-22T14:19:56Z) - Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文 参考訳(メタデータ) (2023-10-28T04:07:58Z) - Data Augmentations for Improved (Large) Language Model Generalization [17.75815547057179]
本稿では,データの因果構造を知ることによって導かれる反ファクト的データ拡張を用いて,突発的特徴に対する介入をシミュレートすることを提案する。
この戦略は,ラベルが属性と突発的に相関しているような予測問題に適していることを示す。
論文 参考訳(メタデータ) (2023-10-19T14:59:25Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Improving Small Language Models on PubMedQA via Generative Data
Augmentation [4.96649519549027]
大規模言語モデル (LLM) は自然言語処理の分野で顕著な進歩を遂げている。
小型言語モデル(SLM)はその効率で知られているが、限られた能力と訓練データに悩まされることが多い。
医療領域におけるSLMの改善を目的とした,LLMに基づく生成データ拡張を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-12T23:49:23Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Self-paced Data Augmentation for Training Neural Networks [11.554821454921536]
本稿では,ニューラルネットワークをトレーニングする際のデータ拡張に適したサンプルを自動的に選択するセルフペース拡張を提案する。
提案手法は,非効率なデータ拡張による一般化性能の低下を緩和する。
実験結果から,SPAは,特にトレーニングサンプル数が少ない場合,一般化性能を向上できることが示された。
論文 参考訳(メタデータ) (2020-10-29T09:13:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。