論文の概要: Adverb Is the Key: Simple Text Data Augmentation with Adverb Deletion
- arxiv url: http://arxiv.org/abs/2403.20015v1
- Date: Fri, 29 Mar 2024 07:01:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 16:15:12.265841
- Title: Adverb Is the Key: Simple Text Data Augmentation with Adverb Deletion
- Title(参考訳): Adverbが鍵:Adverb削除によるシンプルなテキストデータ拡張
- Authors: Juhwan Choi, YoungBin Kim,
- Abstract要約: ルールベースの手法は、コスト効率のために現実世界のアプリケーションに広く採用されている。
副詞の直接削除によってこのような現象を回避する新しいテキストデータ拡張戦略を提案する。
- 参考スコア(独自算出の注目度): 8.406910685074136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the field of text data augmentation, rule-based methods are widely adopted for real-world applications owing to their cost-efficiency. However, conventional rule-based approaches suffer from the possibility of losing the original semantics of the given text. We propose a novel text data augmentation strategy that avoids such phenomena through a straightforward deletion of adverbs, which play a subsidiary role in the sentence. Our comprehensive experiments demonstrate the efficiency and effectiveness of our proposed approach for not just single text classification, but also natural language inference that requires semantic preservation. We publicly released our source code for reproducibility.
- Abstract(参考訳): テキストデータ拡張の分野では、コスト効率のため、現実のアプリケーションにルールベースの手法が広く採用されている。
しかし、従来のルールベースのアプローチは、与えられたテキストの本来の意味論を失う可能性がある。
本稿では,文章の補助的役割を担う副詞の直接削除によって,このような現象を回避する新しいテキストデータ拡張戦略を提案する。
本研究の総合的な実験は,テキスト分類だけでなく,意味保存を必要とする自然言語推論に対しても,提案手法の有効性と有効性を示すものである。
再現性のためのソースコードを公開しました。
関連論文リスト
- Rule by Rule: Learning with Confidence through Vocabulary Expansion [0.0]
テキストベースのデータに特化して設計されたルール学習に革新的な反復的アプローチを提案する。
生成したルールの信頼性を示す指標として信頼性の価値を導入する。
各種テキストおよび非テキストデータセットに対する広範囲な実験により,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-10-30T07:54:01Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - SoftEDA: Rethinking Rule-Based Data Augmentation with Soft Labels [17.542386087870412]
ルールベースのテキストデータ拡張は、単純さのため、NLPタスクに広く利用されている。
拡張データにソフトラベルを適用する手法を提案する。
論文 参考訳(メタデータ) (2024-02-08T11:44:25Z) - Maximizing Data Efficiency for Cross-Lingual TTS Adaptation by
Self-Supervised Representation Mixing and Embedding Initialization [57.38123229553157]
本稿では,テキスト音声合成システムにおける言語適応のための効果的な伝達学習フレームワークを提案する。
ラベル付きおよびラベルなしの最小データを用いて言語適応を実現することに注力する。
実験結果から,本フレームワークは,ラベル付きデータの4つの発声とラベル付きデータの15分で,未知の言語で理解不能な音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2024-01-23T21:55:34Z) - Key Information Retrieval to Classify the Unstructured Data Content of
Preferential Trade Agreements [17.14791553124506]
長文の分類と予測に新しいアプローチを導入する。
我々は、長いテキストを凝縮するために埋め込み技術を採用し、その冗長性を減少させることを目的としている。
提案手法は, 優先貿易協定の長文分類において, 大幅な性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2024-01-23T06:30:05Z) - A Universal Adversarial Policy for Text Classifiers [14.579475552088688]
我々は、新しい普遍的敵政策、普遍的敵政策を導入する。
他の普遍的な攻撃には多くの利点があるが、有効なテキストも得られる。
一般化する能力は、テキストドメインにも普遍的な敵パターンが存在することを示している。
論文 参考訳(メタデータ) (2022-06-19T17:55:47Z) - Semantics-Preserved Distortion for Personal Privacy Protection in Information Management [65.08939490413037]
本稿では,意味的整合性を維持しつつテキストを歪ませる言語学的アプローチを提案する。
本稿では, 意味保存歪みの枠組みとして, 生成的アプローチと置換的アプローチの2つを提示する。
また、特定の医療情報管理シナリオにおけるプライバシ保護についても検討し、機密データの記憶を効果的に制限していることを示す。
論文 参考訳(メタデータ) (2022-01-04T04:01:05Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Adversarial Watermarking Transformer: Towards Tracing Text Provenance
with Data Hiding [80.3811072650087]
自然言語の透かしを防御として研究し,テキストの出所の発見と追跡に役立てる。
本稿では,適応型透かし変換器(AWT)とエンコーダ・デコーダ・デコーダを併用した対向型透かし変換器(AWT)について述べる。
AWTは、テキストにデータを隠蔽する最初のエンドツーエンドモデルである。
論文 参考訳(メタデータ) (2020-09-07T11:01:24Z) - Improving Disentangled Text Representation Learning with
Information-Theoretic Guidance [99.68851329919858]
自然言語の独特な性質は、テキスト表現の分離をより困難にする。
情報理論にインスパイアされた本研究では,テキストの不整合表現を効果的に表現する手法を提案する。
条件付きテキスト生成とテキストスタイル転送の両方の実験は、不整合表現の質を実証する。
論文 参考訳(メタデータ) (2020-06-01T03:36:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。