論文の概要: NL-Augmenter: A Framework for Task-Sensitive Natural Language
Augmentation
- arxiv url: http://arxiv.org/abs/2112.02721v1
- Date: Mon, 6 Dec 2021 00:37:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 13:53:00.416602
- Title: NL-Augmenter: A Framework for Task-Sensitive Natural Language
Augmentation
- Title(参考訳): NL-Augmenter:タスク感性自然言語拡張フレームワーク
- Authors: Kaustubh D. Dhole, Varun Gangal, Sebastian Gehrmann, Aadesh Gupta,
Zhenhao Li, Saad Mahamood, Abinaya Mahendiran, Simon Mille, Ashish
Srivastava, Samson Tan, Tongshuang Wu, Jascha Sohl-Dickstein, Jinho D. Choi,
Eduard Hovy, Ondrej Dusek, Sebastian Ruder, Sajant Anand, Nagender Aneja,
Rabin Banjade, Lisa Barthe, Hanna Behnke, Ian Berlot-Attwell, Connor Boyle,
Caroline Brun, Marco Antonio Sobrevilla Cabezudo, Samuel Cahyawijaya, Emile
Chapuis, Wanxiang Che, Mukund Choudhary, Christian Clauss, Pierre Colombo,
Filip Cornell, Gautier Dagan, Mayukh Das, Tanay Dixit, Thomas Dopierre,
Paul-Alexis Dray, Suchitra Dubey, Tatiana Ekeinhor, Marco Di Giovanni,
Rishabh Gupta, Rishabh Gupta, Louanes Hamla, Sang Han, Fabrice Harel-Canada,
Antoine Honore, Ishan Jindal, Przemyslaw K. Joniak, Denis Kleyko, Venelin
Kovatchev, Kalpesh Krishna, Ashutosh Kumar, Stefan Langer, Seungjae Ryan Lee,
Corey James Levinson, Hualou Liang, Kaizhao Liang, Zhexiong Liu, Andrey
Lukyanenko, Vukosi Marivate, Gerard de Melo, Simon Meoni, Maxime Meyer, Afnan
Mir, Nafise Sadat Moosavi, Niklas Muennighoff, Timothy Sum Hon Mun, Kenton
Murray, Marcin Namysl, Maria Obedkova, Priti Oli, Nivranshu Pasricha, Jan
Pfister, Richard Plant, Vinay Prabhu, Vasile Pais, Libo Qin, Shahab Raji,
Pawan Kumar Rajpoot, Vikas Raunak, Roy Rinberg, Nicolas Roberts, Juan Diego
Rodriguez, Claude Roux, Vasconcellos P. H. S., Ananya B. Sai, Robin M.
Schmidt, Thomas Scialom, Tshephisho Sefara, Saqib N. Shamsi, Xudong Shen,
Haoyue Shi, Yiwen Shi, Anna Shvets, Nick Siegel, Damien Sileo, Jamie Simon,
Chandan Singh, Roman Sitelew, Priyank Soni, Taylor Sorensen, William Soto,
Aman Srivastava, KV Aditya Srivatsa, Tony Sun, Mukund Varma T, A Tabassum,
Fiona Anting Tan, Ryan Teehan, Mo Tiwari, Marie Tolkiehn, Athena Wang, Zijian
Wang, Gloria Wang, Zijie J. Wang, Fuxuan Wei, Bryan Wilie, Genta Indra
Winata, Xinyi Wu, Witold Wydma\'nski, Tianbao Xie, Usama Yaseen, M. Yee, Jing
Zhang, Yue Zhang
- Abstract要約: 提案するNL-Augmenterは,Pythonベースの自然言語拡張フレームワークである。
このフレームワークと117の変換と23のフィルタを、さまざまな自然言語タスクに対して記述する。
我々は,NL-Augmenterの有効性を,NL-Augmenterの変換を用いて検証し,自然言語モデルのロバスト性を解析した。
- 参考スコア(独自算出の注目度): 91.97706178867439
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data augmentation is an important component in the robustness evaluation of
models in natural language processing (NLP) and in enhancing the diversity of
the data they are trained on. In this paper, we present NL-Augmenter, a new
participatory Python-based natural language augmentation framework which
supports the creation of both transformations (modifications to the data) and
filters (data splits according to specific features). We describe the framework
and an initial set of 117 transformations and 23 filters for a variety of
natural language tasks. We demonstrate the efficacy of NL-Augmenter by using
several of its transformations to analyze the robustness of popular natural
language models. The infrastructure, datacards and robustness analysis results
are available publicly on the NL-Augmenter repository
(\url{https://github.com/GEM-benchmark/NL-Augmenter}).
- Abstract(参考訳): データ拡張は、自然言語処理(NLP)におけるモデルの堅牢性評価と、訓練されたデータの多様性向上において重要な要素である。
本稿では,NL-Augmenterを提案する。NL-AugmenterはPythonベースの新しい自然言語拡張フレームワークで,変換(データへの修正)とフィルタ(特定の特徴に応じてデータ分割)の両方の作成をサポートする。
本稿では、このフレームワークと、さまざまな自然言語タスクのための117変換と23フィルタの初期セットについて述べる。
人気のある自然言語モデルのロバスト性を分析するために,いくつかの変換を用いてnl-augmenterの有効性を示す。
インフラストラクチャ、データカード、ロバストネス分析結果は、NL-Augmenterリポジトリ(\url{https://github.com/GEM-benchmark/NL-Augmenter})で公開されている。
関連論文リスト
- Improving Generalization in Semantic Parsing by Increasing Natural
Language Variation [67.13483734810852]
本研究では,テキスト間セマンティック解析の堅牢性を高めるためにデータ拡張を利用する。
私たちは、より現実的で多様な質問を生成するために、大きな言語モデルの能力を活用しています。
いくつかのプロンプトを使って、スパイダー内の質問の数を2倍に増やすことができる。
論文 参考訳(メタデータ) (2024-02-13T18:48:23Z) - Improving Domain-Specific Retrieval by NLI Fine-Tuning [64.79760042717822]
本稿では、自然言語推論(NLI)データの微調整の可能性を調べ、情報検索とランキングを改善する。
コントラスト損失とNLIデータを利用した教師あり手法により細調整された単言語文エンコーダと多言語文エンコーダを併用する。
この結果から,NLIの微調整によりタスクおよび言語間のモデルの性能が向上し,単言語モデルと多言語モデルが改良される可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-06T12:40:58Z) - BRENT: Bidirectional Retrieval Enhanced Norwegian Transformer [1.911678487931003]
検索ベースの言語モデルは、質問応答タスクにますます採用されている。
我々はREALMフレームワークを適用し,ノルウェー初の検索モデルを開発した。
本研究では,このような学習により,抽出質問応答における読み手のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-04-19T13:40:47Z) - Multi-Scales Data Augmentation Approach In Natural Language Inference
For Artifacts Mitigation And Pre-Trained Model Optimization [0.0]
クラウドソーシングされたStanford Natural Language Inference corpus内でデータセットのアーティファクトを分析し、配置するための様々な技術を提供する。
データセットアーティファクトを緩和するために、2つの異なるフレームワークで独自のマルチスケールデータ拡張技術を採用している。
本手法は, 摂動試験に対するモデルの抵抗性を向上し, トレーニング済みベースラインの連続的な性能向上を可能にする。
論文 参考訳(メタデータ) (2022-12-16T23:37:44Z) - Exploring the State-of-the-Art Language Modeling Methods and Data
Augmentation Techniques for Multilingual Clause-Level Morphology [3.8498574327875947]
共有タスクの3つの部分 – 反射,再帰,分析 – について検討する。
データ拡張と組み合わせたトランスフォーマーモデルと、モルフォロジー解析のための最先端の言語モデリング技術を利用する2つのアプローチを主に検討する。
提案手法は,3つのタスクのそれぞれにおいて第1位となり,mT5ベースラインよりも89%,リフレクション80%,分析12%に優れていた。
論文 参考訳(メタデータ) (2022-11-03T11:53:39Z) - WANLI: Worker and AI Collaboration for Natural Language Inference
Dataset Creation [101.00109827301235]
我々は人間と機械の協調に基づくデータセット作成のための新しいパラダイムを導入する。
我々は、データセット地図を用いて、挑戦的な推論パターンを示すサンプルを自動的に識別し、GPT-3に同様のパターンで新しい例を作成するよう指示する。
結果として得られたデータセットであるWANLIは、108,357の自然言語推論(NLI)の例からなり、ユニークな経験的強度を示す。
論文 参考訳(メタデータ) (2022-01-16T03:13:49Z) - Enhancing deep neural networks with morphological information [0.0]
LSTMモデルとBERTモデルに形態学的特徴を加える効果を解析した。
その結果, 形態的特徴の付加は, 特徴の質や課題によって異なることが示唆された。
論文 参考訳(メタデータ) (2020-11-24T22:35:44Z) - Exploring Software Naturalness through Neural Language Models [56.1315223210742]
ソフトウェア自然性仮説(Software Naturalness hypothesis)は、自然言語処理で使用されるのと同じ手法でプログラミング言語を理解することができると主張している。
この仮説は,事前学習されたトランスフォーマーベース言語モデルを用いて,コード解析タスクを実行することによって検討する。
論文 参考訳(メタデータ) (2020-06-22T21:56:14Z) - Dynamic Data Selection and Weighting for Iterative Back-Translation [116.14378571769045]
本稿では,反復的バックトランスレーションモデルのためのカリキュラム学習戦略を提案する。
我々は、ドメイン適応、低リソース、高リソースMT設定に関するモデルを評価する。
実験の結果,提案手法は競争基準値よりも最大1.8 BLEU点の改善を達成できた。
論文 参考訳(メタデータ) (2020-04-07T19:49:58Z) - Stochastic Natural Language Generation Using Dependency Information [0.7995360025953929]
本稿では,自然言語テキストを生成するコーパスベースモデルを提案する。
我々のモデルは、特徴集合を通じてトレーニングデータから依存関係を符号化し、与えられた意味表現のための新しい依存木を生成する。
本モデルでは, 品質だけでなく, 情報性, 自然性といった面においても, 高品質な発話を生成できることが示されている。
論文 参考訳(メタデータ) (2020-01-12T09:40:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。