論文の概要: Augmenty: A Python Library for Structured Text Augmentation
- arxiv url: http://arxiv.org/abs/2312.05520v1
- Date: Sat, 9 Dec 2023 10:24:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 20:25:17.128926
- Title: Augmenty: A Python Library for Structured Text Augmentation
- Title(参考訳): Augmenty: 構造化テキスト拡張のためのPythonライブラリ
- Authors: Kenneth Enevoldsen
- Abstract要約: Augmnetyは構造化テキスト拡張のためのPythonライブラリである。
SpaCy上に構築されており、テキストとアノテーションの両方を拡張できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Augmnety is a Python library for structured text augmentation. It is built on
top of spaCy and allows for augmentation of both the text and its annotations.
Augmenty provides a wide range of augmenters which can be combined in a
flexible manner to create complex augmentation pipelines. It also includes a
set of primitives that can be used to create custom augmenters such as word
replacement augmenters. This functionality allows for augmentations within a
range of applications such as named entity recognition (NER), part-of-speech
tagging, and dependency parsing.
- Abstract(参考訳): Augmnetyは構造化テキスト拡張のためのPythonライブラリである。
SpaCy上に構築されており、テキストとアノテーションの両方を拡張できる。
複雑な拡張パイプラインを作成するために、augmentyは柔軟な方法で組み合わせることができる幅広いアグメンテーションを提供する。
また、単語置換拡張子などのカスタム拡張子を作成するために使用できるプリミティブのセットも含まれている。
この機能は、名前付きエンティティ認識(ner)、part-of-speechタグ、依存性解析など、さまざまなアプリケーション内の拡張を可能にする。
関連論文リスト
- Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。
提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。
当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-07-13T05:03:26Z) - GDA: Generative Data Augmentation Techniques for Relation Extraction
Tasks [81.51314139202152]
本稿では,意味的一貫性と構文構造を両立させるために2つの相補的モジュールを用いるGDAという,関係テキスト専用の拡張手法を提案する。
低リソース環境下での3つのデータセットによる実験結果から,GDAはエム2.0%のF1改善をもたらすことが示された。
論文 参考訳(メタデータ) (2023-05-26T06:21:01Z) - AttriCLIP: A Non-Incremental Learner for Incremental Knowledge Learning [53.32576252950481]
連続学習は、モデルが逐次到着したデータから段階的に知識を学習できるようにすることを目的としている。
本稿では,新しいクラスやタスクの知識を段階的に抽出する,AttriCLIPという非インクリメンタル学習手法を提案する。
論文 参考訳(メタデータ) (2023-05-19T07:39:17Z) - TegFormer: Topic-to-Essay Generation with Good Topic Coverage and High
Text Coherence [8.422108048684215]
本稿では,トピック・ツー・エッセイ生成のための新しいアプローチであるTegFormerを提案する。
emphTopic-Extensionレイヤは、与えられたトピックとドメイン固有のコンテキストの間のインタラクションをキャプチャする。
emphEmbedding-Fusionモジュールは、与えられたコーパスから学習したドメイン固有の単語埋め込みと、大量のテキストデータに基づいて事前訓練されたGPT-2モデルによって提供される汎用単語埋め込みとを組み合わせる。
論文 参考訳(メタデータ) (2022-12-27T11:50:14Z) - BootAug: Boosting Text Augmentation via Hybrid Instance Filtering Framework [7.622122513456483]
本稿では,事前学習言語モデルに基づくハイブリッドなインスタンスフィルタリングフレームワーク(BootAug)を提案する。
BootAugは、分類精度を$approx 2-3%で向上する。
当社は,大規模なデータセット上での既存の拡張メソッドの改善を支援するために,コードをリリースしています。
論文 参考訳(メタデータ) (2022-10-06T14:15:11Z) - Syntax-driven Data Augmentation for Named Entity Recognition [3.0603554929274908]
低リソース設定では、データ拡張戦略が一般的に活用され、パフォーマンスが向上する。
名前付きエンティティ認識を改善するために,簡易なマスク付き言語モデル置換法と選択木変異を用いた拡張法を比較した。
論文 参考訳(メタデータ) (2022-08-15T01:24:55Z) - TreeMix: Compositional Constituency-based Data Augmentation for Natural
Language Understanding [56.794981024301094]
自然言語理解のための合成データ拡張手法であるTreeMixを提案する。
具体的には、TreeMixは、選択構文解析木を利用して、文章を構成要素のサブ構造に分解し、ミックスアップデータ拡張技術を使って、それらを再結合して新しい文を生成する。
従来のアプローチと比較して、TreeMixは生成されたサンプルにより多様性を導入し、NLPデータの合成性を学ぶようモデルに促している。
論文 参考訳(メタデータ) (2022-05-12T15:25:12Z) - AugLy: Data Augmentations for Robustness [3.1727619150610837]
AugLyは、敵対的堅牢性に焦点を当てたデータ拡張ライブラリである。
我々は、AugLyがどのように機能し、既存のライブラリと比較し、それを様々な最先端モデルの堅牢性を評価するために使用します。
論文 参考訳(メタデータ) (2022-01-17T16:08:59Z) - Text Data Augmentation: Towards better detection of spear-phishing
emails [1.6556358263455926]
社内の英語テキストを増強するためのコーパスとタスク拡張フレームワークを提案する。
提案手法は,BERT言語モデル,多段階のバックトランスレーション,アグノシクスなど,様々な手法を組み合わせる。
本研究では,公開モデルとコーパスを用いて,テキスト分類タスクの性能向上を図っている。
論文 参考訳(メタデータ) (2020-07-04T07:45:04Z) - pyBART: Evidence-based Syntactic Transformations for IE [52.93947844555369]
pyBARTは、英語のUD木を拡張UDグラフに変換するためのオープンソースのPythonライブラリである。
パターンに基づく関係抽出のシナリオで評価すると、より少ないパターンを必要としながら、より高精細なUDよりも高い抽出スコアが得られる。
論文 参考訳(メタデータ) (2020-05-04T07:38:34Z) - Anchor & Transform: Learning Sparse Embeddings for Large Vocabularies [60.285091454321055]
我々は,アンカー埋め込みとスパース変換行列の小さな組を学習する,単純で効率的な埋め込みアルゴリズムを設計する。
テキスト分類、言語モデリング、映画レコメンデーションのベンチマークでは、ANTは大きな語彙サイズに特に適していることが示されている。
論文 参考訳(メタデータ) (2020-03-18T13:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。