論文の概要: I-WAS: a Data Augmentation Method with GPT-2 for Simile Detection
- arxiv url: http://arxiv.org/abs/2308.04109v1
- Date: Tue, 8 Aug 2023 07:47:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 13:47:32.493155
- Title: I-WAS: a Data Augmentation Method with GPT-2 for Simile Detection
- Title(参考訳): I-WAS: 同期検出のためのGPT-2を用いたデータ拡張手法
- Authors: Yongzhu Chang, Rongsheng Zhang, Jiashu Pu
- Abstract要約: GPT-2言語モデルを用いた textbfWord の置換と文補完に基づくデータ拡張手法を提案する。
提案手法の有効性を実験的に検証し,本手法の有効性を検証した。
- 参考スコア(独自算出の注目度): 2.5495949162960625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Simile detection is a valuable task for many natural language processing
(NLP)-based applications, particularly in the field of literature. However,
existing research on simile detection often relies on corpora that are limited
in size and do not adequately represent the full range of simile forms. To
address this issue, we propose a simile data augmentation method based on
\textbf{W}ord replacement And Sentence completion using the GPT-2 language
model. Our iterative process called I-WAS, is designed to improve the quality
of the augmented sentences. To better evaluate the performance of our method in
real-world applications, we have compiled a corpus containing a more diverse
set of simile forms for experimentation. Our experimental results demonstrate
the effectiveness of our proposed data augmentation method for simile
detection.
- Abstract(参考訳): シミュラ検出は多くの自然言語処理(NLP)ベースのアプリケーション、特に文学分野において重要なタスクである。
しかし、模擬検出に関する既存の研究は、しばしばサイズが限られており、完全な模擬形態を適切に表現していないコーパスに依存している。
この問題に対処するため, GPT-2言語モデルを用いて, \textbf{W}ord置換および文補完に基づくデータ拡張手法を提案する。
I-WASと呼ばれる反復的なプロセスは、拡張文の品質を向上させるために設計されている。
本手法の性能を実世界のアプリケーションでよりよく評価するために,実験のためにより多様なシミール形式を含むコーパスをコンパイルした。
提案手法の有効性を実験的に検証し,本手法の有効性を検証した。
関連論文リスト
- Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。
提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - Authorship Verification based on the Likelihood Ratio of Grammar Models [0.8749675983608172]
著者検証(英語: Authorship Verification、AV)とは、特定の著者によって書かれたかどうかを判断する一連の文書を分析するプロセスである。
我々は、$lambda_G$ (LambdaG) と呼ぶ量を計算する方法を提案する。
トレーニングに大量のデータを必要としないにも関わらず、LambdaGは計算複雑性の高い既存のAVメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-13T12:25:47Z) - Iterative Mask Filling: An Effective Text Augmentation Method Using
Masked Language Modeling [0.0]
本稿では,変換器を用いたBERTモデルのフィル・マスク機能を利用した新しいテキスト拡張手法を提案する。
本手法では,文中の単語を反復的にマスキングし,言語モデル予測に置き換える。
実験の結果,提案手法は,特にトピック分類データセットにおいて,性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-01-03T16:47:13Z) - On the N-gram Approximation of Pre-trained Language Models [17.764803904135903]
大規模事前学習型言語モデル(PLM)は、様々な自然言語理解(NLU)タスクにおいて顕著な性能を示している。
本研究では,自動音声認識(ASR)における言語モデリングにおけるPLMの有用性について検討する。
我々は,GPT-2をn-gramモデルに近似するための大規模テキストサンプリングと確率変換の適用について比較した。
論文 参考訳(メタデータ) (2023-06-12T06:42:08Z) - Prefer to Classify: Improving Text Classifiers via Auxiliary Preference
Learning [76.43827771613127]
本稿では、このような補助データアノテーションの新しい代替手段として、入力テキストのペア間のタスク固有の嗜好について検討する。
本稿では、与えられた分類課題と補助的選好の両方を学ぶことの協調効果を享受できる、P2Cと呼ばれる新しいマルチタスク学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T04:04:47Z) - ChatGraph: Interpretable Text Classification by Converting ChatGPT
Knowledge to Graphs [54.48467003509595]
ChatGPTは、様々な自然言語処理(NLP)タスクにおいて優れたパフォーマンスを示している。
テキスト分類などの特定のタスクにChatGPTのパワーを利用する新しいフレームワークを提案する。
本手法は,従来のテキスト分類法と比較して,より透過的な意思決定プロセスを提供する。
論文 参考訳(メタデータ) (2023-05-03T19:57:43Z) - AugGPT: Leveraging ChatGPT for Text Data Augmentation [59.76140039943385]
本稿では,ChatGPT(AugGPT)に基づくテキストデータ拡張手法を提案する。
AugGPTはトレーニングサンプルの各文を、概念的には似ているが意味的に異なる複数のサンプルに言い換える。
数ショットの学習テキスト分類タスクの実験結果は、提案したAugGPTアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-25T06:58:16Z) - Text and author-level political inference using heterogeneous knowledge
representations [0.0]
自然言語処理(NLP)において、テキストデータから政治的にチャージされた情報の推測がポピュラーな研究トピックである
本研究は、英語とポルトガル語の両方のテキストからの政治的推論のための代替モデル構成を比較する一連の実験について述べる。
結果は、あるテキスト表現が、複数の実験的な設定で代替よりも優れていることを示唆している。
論文 参考訳(メタデータ) (2022-06-24T13:45:36Z) - Investigating Lexical Replacements for Arabic-English Code-Switched Data
Augmentation [32.885722714728765]
CS (code-switching) NLPシステムにおけるデータ拡張手法について検討する。
単語整列並列コーパスを用いて語彙置換を行う。
これらのアプローチを辞書ベースの置換と比較する。
論文 参考訳(メタデータ) (2022-05-25T10:44:36Z) - Consistency Regularization for Cross-Lingual Fine-Tuning [61.08704789561351]
整合性正規化による言語間微調整の改善を提案する。
具体的には、例の整合性正規化を用いて、予測感度を4種類のデータ拡張にペナルティ化する。
XTREMEベンチマークの実験結果から,本手法は様々なタスクにおける言語間微調整を大幅に改善することが示された。
論文 参考訳(メタデータ) (2021-06-15T15:35:44Z) - Syntax-aware Data Augmentation for Neural Machine Translation [76.99198797021454]
本稿では,ニューラルマシン翻訳のための新しいデータ拡張戦略を提案する。
文中の役割を考慮し,単語選択のための文特異的確率を設定した。
提案手法はWMT14の英語-ドイツ語データセットとIWSLT14のドイツ語-英語データセットを用いて評価する。
論文 参考訳(メタデータ) (2020-04-29T13:45:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。