論文の概要: Data Augmentation for Conflict and Duplicate Detection in Software
Engineering Sentence Pairs
- arxiv url: http://arxiv.org/abs/2305.09608v1
- Date: Tue, 16 May 2023 17:00:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 13:50:08.653668
- Title: Data Augmentation for Conflict and Duplicate Detection in Software
Engineering Sentence Pairs
- Title(参考訳): ソフトウェア工学における係争・重複検出のためのデータ強化
- Authors: Garima Malik, Mucahit Cevik, Ay\c{s}e Ba\c{s}ar
- Abstract要約: この研究は、シャッフル、逆翻訳、パラフレージングといった一般的な拡張技術に適応する。
Noun-Verb Substitution, target-lemma replacement, Actor-Action Substitutionなどの新しいデータ拡張手法が提案されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper explores the use of text data augmentation techniques to enhance
conflict and duplicate detection in software engineering tasks through sentence
pair classification. The study adapts generic augmentation techniques such as
shuffling, back translation, and paraphrasing and proposes new data
augmentation techniques such as Noun-Verb Substitution, target-lemma
replacement and Actor-Action Substitution for software requirement texts. A
comprehensive empirical analysis is conducted on six software text datasets to
identify conflicts and duplicates among sentence pairs. The results demonstrate
that data augmentation techniques have a significant impact on the performance
of all software pair text datasets. On the other hand, in cases where the
datasets are relatively balanced, the use of augmentation techniques may result
in a negative effect on the classification performance.
- Abstract(参考訳): 本稿では,文対分類によるソフトウェア工学タスクにおけるコンフリクトと重複検出の強化を目的としたテキストデータ拡張手法について検討する。
本研究は, シャッフル, バック翻訳, パラフレージングなどの一般的な拡張手法を適応し, ソフトウェア要件テキストに対する名詞動詞置換, ターゲット・レムマ置換, アクター・アクション置換といった新しいデータ拡張手法を提案する。
6つのソフトウェアテキストデータセット上で包括的実証分析を行い、文ペア間の競合や重複を識別する。
その結果、データ拡張技術は、すべてのソフトウェアペアテキストデータセットの性能に重大な影響を及ぼすことが示された。
一方,データセットが比較的バランスが取れている場合,拡張手法を用いることで分類性能に悪影響を及ぼす可能性がある。
関連論文リスト
- Leveraging Mixture of Experts for Improved Speech Deepfake Detection [53.69740463004446]
スピーチのディープフェイクは、個人のセキュリティとコンテンツの信頼性に重大な脅威をもたらす。
本研究では,Mixture of Expertsアーキテクチャを用いた音声深度検出性能の向上のための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T13:24:03Z) - Falcon 7b for Software Mention Detection in Scholarly Documents [7.0413463890126735]
本稿では,学術文献におけるソフトウェア言及の検出・分類におけるFalcon-7bの適用について検討する。
総合的な実験を通じて、二分法アプローチ、適応サンプリング、重み付き損失スケーリングなど、さまざまなトレーニング戦略を探求する。
この結果は,モデルの性能向上における選択的ラベリングと適応サンプリングの利点を浮き彫りにした。
論文 参考訳(メタデータ) (2024-05-14T11:37:26Z) - Human-in-the-Loop Synthetic Text Data Inspection with Provenance Tracking [11.022295941449919]
Inspectorは,ループ内データ検査技術である。
ユーザスタディでは,感情分析タスクでは3X,ヘイトスピーチ検出タスクでは4X,正確なラベル付きテキスト数が増加する。
論文 参考訳(メタデータ) (2024-04-29T17:16:27Z) - Text2Data: Low-Resource Data Generation with Textual Control [104.38011760992637]
自然言語は、人間が機械とシームレスに対話するための共通かつ直接的な制御信号として機能する。
ラベルのないデータを用いて教師なし拡散モデルを用いて基礎となるデータ分布を理解する新しいアプローチであるText2Dataを提案する。
制御性を確保し、破滅的な忘れを効果的に防止する、新しい制約最適化ベースの学習目標を通じて制御可能な微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - ESTextSpotter: Towards Better Scene Text Spotting with Explicit Synergy
in Transformer [88.61312640540902]
明示的な構文に基づくテキストスポッティング変換フレームワーク(ESTextSpotter)を紹介する。
本モデルは,1つのデコーダ内におけるテキスト検出と認識のための識別的,インタラクティブな特徴をモデル化することにより,明示的な相乗効果を実現する。
実験結果から,本モデルが従来の最先端手法よりも有意に優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-08-20T03:22:23Z) - Boosting Event Extraction with Denoised Structure-to-Text Augmentation [52.21703002404442]
イベント抽出は、テキストから事前に定義されたイベントトリガと引数を認識することを目的としている。
最近のデータ拡張手法は文法的誤りの問題を無視することが多い。
本稿では,イベント抽出DAEEのための記述構造からテキストへの拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-16T16:52:07Z) - NAP at SemEval-2023 Task 3: Is Less Really More? (Back-)Translation as
Data Augmentation Strategies for Detecting Persuasion Techniques [1.8262547855491458]
マルチランガルなセットアップでニュースを検出する説得テクニックは、簡単ではなく、トレーニングデータが少ないなど、課題が伴う。
本システムでは,多言語変換器モデルを用いたデータ拡張戦略として(バック-バック)翻訳をうまく活用し,説得的手法の検出に役立てる。
論文 参考訳(メタデータ) (2023-04-27T13:33:08Z) - AugGPT: Leveraging ChatGPT for Text Data Augmentation [59.76140039943385]
本稿では,ChatGPT(AugGPT)に基づくテキストデータ拡張手法を提案する。
AugGPTはトレーニングサンプルの各文を、概念的には似ているが意味的に異なる複数のサンプルに言い換える。
数ショットの学習テキスト分類タスクの実験結果は、提案したAugGPTアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-25T06:58:16Z) - Advanced Data Augmentation Approaches: A Comprehensive Survey and Future
directions [57.30984060215482]
データ拡張の背景、レビューされたデータ拡張技術の新しい包括的分類法、および各技術の強さと弱点(可能ならば)を提供する。
また、画像分類、オブジェクト検出、セマンティックセグメンテーションなどの3つの一般的なコンピュータビジョンタスクに対して、データ拡張効果の総合的な結果を提供する。
論文 参考訳(メタデータ) (2023-01-07T11:37:32Z) - DUET: Detection Utilizing Enhancement for Text in Scanned or Captured
Documents [1.4866448722906016]
提案手法は,テキスト検出だけでなく,ノイズ低減やテキスト領域の強調を行うように設計されている。
テキスト検出と強調のためにラベル付けされた文書画像の合成により,モデルのトレーニングデータを充実させる。
提案手法は,他のテキスト検出手法を上回る性能を有する実文書データセットで実証される。
論文 参考訳(メタデータ) (2021-06-10T07:08:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。