論文の概要: ParaFusion: A Large-Scale LLM-Driven English Paraphrase Dataset Infused with High-Quality Lexical and Syntactic Diversity
- arxiv url: http://arxiv.org/abs/2404.12010v1
- Date: Thu, 18 Apr 2024 09:02:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 19:31:17.703075
- Title: ParaFusion: A Large-Scale LLM-Driven English Paraphrase Dataset Infused with High-Quality Lexical and Syntactic Diversity
- Title(参考訳): Parafusion: 高品質の語彙と構文の多様性を取り入れた大規模LLM駆動型英語パラフレーズデータセット
- Authors: Lasal Jayawardena, Prasan Yapa,
- Abstract要約: 既存のデータセットは構文と語彙の多様性に欠けており、結果として原文によく似たパラフレーズが生じる。
本研究では,Large Language Models (LLM) を用いた大規模かつ高品質な英語パラフレーズデータセットであるParaFusionを紹介する。
ParaFusionは、高品質なデータで既存のデータセットを拡張し、語彙と構文の多様性を著しく向上し、セマンティックな類似性を維持している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Paraphrase generation is a pivotal task in natural language processing (NLP). Existing datasets in the domain lack syntactic and lexical diversity, resulting in paraphrases that closely resemble the source sentences. Moreover, these datasets often contain hate speech and noise, and may unintentionally include non-English language sentences. This research introduces ParaFusion, a large-scale, high-quality English paraphrase dataset developed using Large Language Models (LLM) to address these challenges. ParaFusion augments existing datasets with high-quality data, significantly enhancing both lexical and syntactic diversity while maintaining close semantic similarity. It also mitigates the presence of hate speech and reduces noise, ensuring a cleaner and more focused English dataset. Results show that ParaFusion offers at least a 25% improvement in both syntactic and lexical diversity, measured across several metrics for each data source. The paper also aims to set a gold standard for paraphrase evaluation as it contains one of the most comprehensive evaluation strategies to date. The results underscore the potential of ParaFusion as a valuable resource for improving NLP applications.
- Abstract(参考訳): パラフレーズ生成は自然言語処理(NLP)における重要なタスクである。
既存のデータセットは構文と語彙の多様性に欠けており、結果として原文によく似たパラフレーズが生じる。
さらに、これらのデータセットは、しばしばヘイトスピーチとノイズを含み、意図せずに非英語の文を含むことがある。
本研究は,これらの課題に対処するために,Large Language Models (LLM) を用いて開発された,大規模で高品質な英語パラフレーズデータセットであるParaFusionを紹介する。
ParaFusionは、高品質なデータで既存のデータセットを拡張し、語彙と構文の多様性を著しく向上し、セマンティックな類似性を維持している。
また、ヘイトスピーチの存在を緩和し、ノイズを低減し、よりクリーンでより焦点を絞った英語データセットを確保する。
その結果、ParaFusionは構文と語彙の多様性を少なくとも25%改善し、各データソースのいくつかの指標で測定できることがわかった。
また,現在最も包括的評価戦略の1つであるパラフレーズ評価のためのゴールド標準の設定も目指している。
この結果は、NLPアプリケーションを改善するための貴重なリソースとして、ParaFusionの可能性を強調している。
関連論文リスト
- GlotLID: Language Identification for Low-Resource Languages [51.38634652914054]
GlotLID-M は広い範囲、信頼性、効率性のデシラタを満たす LID モデルである。
1665の言語を識別し、以前の作業に比べてカバー範囲が大幅に増加した。
論文 参考訳(メタデータ) (2023-10-24T23:45:57Z) - mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view
Contrastive Learning [54.523172171533645]
CrossNERは多言語コーパスの不足により不均一な性能から生じる課題に直面している。
言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。
40言語にまたがるXTREMEベンチマーク実験では、従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-08-17T16:02:29Z) - Improving Domain-Specific Retrieval by NLI Fine-Tuning [64.79760042717822]
本稿では、自然言語推論(NLI)データの微調整の可能性を調べ、情報検索とランキングを改善する。
コントラスト損失とNLIデータを利用した教師あり手法により細調整された単言語文エンコーダと多言語文エンコーダを併用する。
この結果から,NLIの微調整によりタスクおよび言語間のモデルの性能が向上し,単言語モデルと多言語モデルが改良される可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-06T12:40:58Z) - Making Metadata More FAIR Using Large Language Models [2.61630828688114]
この作業では、メタデータを比較するFAIRMetaTextと呼ばれる自然言語処理(NLP)情報を提供する。
特に、FAIRMetaTextはメタデータの自然言語記述を分析し、2項間の数学的類似度尺度を提供する。
このソフトウェアは、同じトピックに関するいくつかの実験データセットを使用しながら、さまざまな自然言語メタデータを精査する際の人的労力を大幅に削減することができる。
論文 参考訳(メタデータ) (2023-07-24T19:14:38Z) - ParaAMR: A Large-Scale Syntactically Diverse Paraphrase Dataset by AMR
Back-Translation [59.91139600152296]
ParaAMRは、抽象的な表現のバックトランスレーションによって生成される、大規模な構文的に多様なパラフレーズデータセットである。
そこで本研究では,ParaAMRを用いて文の埋め込み学習,構文的に制御されたパラフレーズ生成,数ショット学習のためのデータ拡張という,3つのNLPタスクを改善することができることを示す。
論文 参考訳(メタデータ) (2023-05-26T02:27:33Z) - Language Agnostic Code-Mixing Data Augmentation by Predicting Linguistic
Patterns [0.5560631344057825]
本稿では,下流感情分析タスクにおけるベースラインよりも優れたSCMデータ拡張手法を提案する。
提案手法は,マトリックス言語における文の一部を一定のマスクで戦略的に置き換えることで,分類精度が著しく向上することを示す。
我々は低リソースと多言語の設定でデータ拡張手法をテストし、非常に少ない英・マラヤラムデータセットで7.73%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2022-11-14T18:50:16Z) - Always Keep your Target in Mind: Studying Semantics and Improving
Performance of Neural Lexical Substitution [124.99894592871385]
本稿では,従来の言語モデルと最近の言語モデルの両方を用いた語彙置換手法の大規模比較研究を行う。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによるすでに競合する結果がさらに大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-06-07T16:16:19Z) - WANLI: Worker and AI Collaboration for Natural Language Inference
Dataset Creation [101.00109827301235]
我々は人間と機械の協調に基づくデータセット作成のための新しいパラダイムを導入する。
我々は、データセット地図を用いて、挑戦的な推論パターンを示すサンプルを自動的に識別し、GPT-3に同様のパターンで新しい例を作成するよう指示する。
結果として得られたデータセットであるWANLIは、108,357の自然言語推論(NLI)の例からなり、ユニークな経験的強度を示す。
論文 参考訳(メタデータ) (2022-01-16T03:13:49Z) - To Augment or Not to Augment? A Comparative Study on Text Augmentation
Techniques for Low-Resource NLP [0.0]
本稿では,構文の変更を行うテキスト拡張手法の3つのカテゴリについて検討する。
音声のタグ付けや依存性解析,セマンティックロールのラベル付けなどにおいて,多種多様な言語ファミリに対して比較を行った。
以上の結果から,mBERTに基づくベースラインの強化により,より高機能化が可能であることが示唆された。
論文 参考訳(メタデータ) (2021-11-18T10:52:48Z) - Extracting and filtering paraphrases by bridging natural language
inference and paraphrasing [0.0]
本研究では,NLIデータセットからパラフレージングデータセットを抽出し,既存のパラフレージングデータセットをクリーニングするための新しい手法を提案する。
その結果,既存の2つのパラフレージングデータセットにおいて,抽出したパラフレージングデータセットの品質と驚くほど高いノイズレベルが示された。
論文 参考訳(メタデータ) (2021-11-13T14:06:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。