Fugu-MT 論文翻訳(概要): Augmenty: A Python Library for Structured Text Augmentation

論文の概要: Augmenty: A Python Library for Structured Text Augmentation

arxiv url: http://arxiv.org/abs/2312.05520v1
Date: Sat, 9 Dec 2023 10:24:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-12 20:25:17.128926
Title: Augmenty: A Python Library for Structured Text Augmentation
Title（参考訳）: Augmenty: 構造化テキスト拡張のためのPythonライブラリ
Authors: Kenneth Enevoldsen
Abstract要約: Augmnetyは構造化テキスト拡張のためのPythonライブラリである。 SpaCy上に構築されており、テキストとアノテーションの両方を拡張できる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Augmnety is a Python library for structured text augmentation. It is built on top of spaCy and allows for augmentation of both the text and its annotations. Augmenty provides a wide range of augmenters which can be combined in a flexible manner to create complex augmentation pipelines. It also includes a set of primitives that can be used to create custom augmenters such as word replacement augmenters. This functionality allows for augmentations within a range of applications such as named entity recognition (NER), part-of-speech tagging, and dependency parsing.
Abstract（参考訳）: Augmnetyは構造化テキスト拡張のためのPythonライブラリである。 SpaCy上に構築されており、テキストとアノテーションの両方を拡張できる。複雑な拡張パイプラインを作成するために、augmentyは柔軟な方法で組み合わせることができる幅広いアグメンテーションを提供する。また、単語置換拡張子などのカスタム拡張子を作成するために使用できるプリミティブのセットも含まれている。この機能は、名前付きエンティティ認識(ner)、part-of-speechタグ、依存性解析など、さまざまなアプリケーション内の拡張を可能にする。

関連論文リスト

Improving Ad matching via Cluster-Adaptive Keyword Expansion and Relevance tuning [2.730740440506481]
この作業は、ドキュメント側のセマンティックキーワード拡張を通じてキーワードリーチを拡張する。本稿では,事前学習したシアムモデルを用いて,広告キーワードのベクトル表現を高密度に生成する手法を提案する。本稿では,局所的な意味密度に基づいて類似性のカットオフを調整するクラスタベースのしきい値設定機構を提案する。
論文参考訳（メタデータ） (2025-05-24T23:02:19Z)
LATex: Leveraging Attribute-based Text Knowledge for Aerial-Ground Person Re-Identification [63.07563443280147]
本稿では,AG-ReID のための新しいフレームワーク LATex を提案する。属性ベースのテキスト知識を活用するために、プロンプトチューニング戦略を採用する。我々のフレームワークは、AG-ReIDを改善するために属性ベースのテキスト知識を完全に活用できる。
論文参考訳（メタデータ） (2025-03-31T04:47:05Z)
Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文参考訳（メタデータ） (2023-07-13T05:03:26Z)
GDA: Generative Data Augmentation Techniques for Relation Extraction Tasks [81.51314139202152]
本稿では,意味的一貫性と構文構造を両立させるために2つの相補的モジュールを用いるGDAという,関係テキスト専用の拡張手法を提案する。低リソース環境下での3つのデータセットによる実験結果から,GDAはエム2.0%のF1改善をもたらすことが示された。
論文参考訳（メタデータ） (2023-05-26T06:21:01Z)
AttriCLIP: A Non-Incremental Learner for Incremental Knowledge Learning [53.32576252950481]
連続学習は、モデルが逐次到着したデータから段階的に知識を学習できるようにすることを目的としている。本稿では,新しいクラスやタスクの知識を段階的に抽出する,AttriCLIPという非インクリメンタル学習手法を提案する。
論文参考訳（メタデータ） (2023-05-19T07:39:17Z)
TegFormer: Topic-to-Essay Generation with Good Topic Coverage and High Text Coherence [8.422108048684215]
本稿では,トピック・ツー・エッセイ生成のための新しいアプローチであるTegFormerを提案する。 emphTopic-Extensionレイヤは、与えられたトピックとドメイン固有のコンテキストの間のインタラクションをキャプチャする。 emphEmbedding-Fusionモジュールは、与えられたコーパスから学習したドメイン固有の単語埋め込みと、大量のテキストデータに基づいて事前訓練されたGPT-2モデルによって提供される汎用単語埋め込みとを組み合わせる。
論文参考訳（メタデータ） (2022-12-27T11:50:14Z)
BootAug: Boosting Text Augmentation via Hybrid Instance Filtering Framework [7.622122513456483]
本稿では,事前学習言語モデルに基づくハイブリッドなインスタンスフィルタリングフレームワーク(BootAug)を提案する。 BootAugは、分類精度を$approx 2-3%で向上する。当社は,大規模なデータセット上での既存の拡張メソッドの改善を支援するために,コードをリリースしています。
論文参考訳（メタデータ） (2022-10-06T14:15:11Z)
Syntax-driven Data Augmentation for Named Entity Recognition [3.0603554929274908]
低リソース設定では、データ拡張戦略が一般的に活用され、パフォーマンスが向上する。名前付きエンティティ認識を改善するために,簡易なマスク付き言語モデル置換法と選択木変異を用いた拡張法を比較した。
論文参考訳（メタデータ） (2022-08-15T01:24:55Z)
TreeMix: Compositional Constituency-based Data Augmentation for Natural Language Understanding [56.794981024301094]
自然言語理解のための合成データ拡張手法であるTreeMixを提案する。具体的には、TreeMixは、選択構文解析木を利用して、文章を構成要素のサブ構造に分解し、ミックスアップデータ拡張技術を使って、それらを再結合して新しい文を生成する。従来のアプローチと比較して、TreeMixは生成されたサンプルにより多様性を導入し、NLPデータの合成性を学ぶようモデルに促している。
論文参考訳（メタデータ） (2022-05-12T15:25:12Z)
AugLy: Data Augmentations for Robustness [3.1727619150610837]
AugLyは、敵対的堅牢性に焦点を当てたデータ拡張ライブラリである。我々は、AugLyがどのように機能し、既存のライブラリと比較し、それを様々な最先端モデルの堅牢性を評価するために使用します。
論文参考訳（メタデータ） (2022-01-17T16:08:59Z)
Text Data Augmentation: Towards better detection of spear-phishing emails [1.6556358263455926]
社内の英語テキストを増強するためのコーパスとタスク拡張フレームワークを提案する。提案手法は,BERT言語モデル,多段階のバックトランスレーション,アグノシクスなど,様々な手法を組み合わせる。本研究では,公開モデルとコーパスを用いて,テキスト分類タスクの性能向上を図っている。
論文参考訳（メタデータ） (2020-07-04T07:45:04Z)
pyBART: Evidence-based Syntactic Transformations for IE [52.93947844555369]
pyBARTは、英語のUD木を拡張UDグラフに変換するためのオープンソースのPythonライブラリである。パターンに基づく関係抽出のシナリオで評価すると、より少ないパターンを必要としながら、より高精細なUDよりも高い抽出スコアが得られる。
論文参考訳（メタデータ） (2020-05-04T07:38:34Z)
Anchor & Transform: Learning Sparse Embeddings for Large Vocabularies [60.285091454321055]
我々は,アンカー埋め込みとスパース変換行列の小さな組を学習する,単純で効率的な埋め込みアルゴリズムを設計する。テキスト分類、言語モデリング、映画レコメンデーションのベンチマークでは、ANTは大きな語彙サイズに特に適していることが示されている。
論文参考訳（メタデータ） (2020-03-18T13:07:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。