論文の概要: LINDA: Unsupervised Learning to Interpolate in Natural Language
Processing
- arxiv url: http://arxiv.org/abs/2112.13969v1
- Date: Tue, 28 Dec 2021 02:56:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-30 14:48:06.722126
- Title: LINDA: Unsupervised Learning to Interpolate in Natural Language
Processing
- Title(参考訳): LINDA: 自然言語処理における教師なし学習
- Authors: Yekyung Kim, Seohyeong Jeong, Kyunghyun Cho
- Abstract要約: データ拡張のためのインターポレート学習(LINDA)は、データ拡張を目的としたテキストの教師なし学習手法である。
LINDAは、自然言語多様体上の任意の一対の自然言語文の間を補間することを学ぶ。
LINDAは、NLPでシームレスにミキサアップを適用でき、ドメイン内とドメイン外の両方のテキスト分類において、より良い一般化をもたらすことを示す。
- 参考スコア(独自算出の注目度): 46.080523939647385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the success of mixup in data augmentation, its applicability to
natural language processing (NLP) tasks has been limited due to the discrete
and variable-length nature of natural languages. Recent studies have thus
relied on domain-specific heuristics and manually crafted resources, such as
dictionaries, in order to apply mixup in NLP. In this paper, we instead propose
an unsupervised learning approach to text interpolation for the purpose of data
augmentation, to which we refer as "Learning to INterpolate for Data
Augmentation" (LINDA), that does not require any heuristics nor manually
crafted resources but learns to interpolate between any pair of natural
language sentences over a natural language manifold. After empirically
demonstrating the LINDA's interpolation capability, we show that LINDA indeed
allows us to seamlessly apply mixup in NLP and leads to better generalization
in text classification both in-domain and out-of-domain.
- Abstract(参考訳): データ強化の成功にもかかわらず、自然言語処理(NLP)タスクの適用性は、自然言語の離散性と可変長の性質のために制限されてきた。
したがって、近年の研究はnlpにミックスアップを適用するためにドメイン固有のヒューリスティックと辞書などの手作業によるリソースに頼っている。
本稿では,データ拡張を目的としたテキスト補間のための教師なし学習手法を提案する。これは「データ拡張のためのインターポレート学習(Learning to Interpolate for Data Augmentation, LINDA)」と呼ばれ,ヒューリスティックスや手作業による資源を必要としないが,自然言語多様体上の任意の自然言語文間の補間を学習する。
LINDAの補間機能を実証的に実証した結果、LINDAは実際にNLPにシームレスにミキサアップを適用でき、ドメイン内とドメイン外の両方のテキスト分類においてより一般化できることがわかった。
関連論文リスト
- UniPSDA: Unsupervised Pseudo Semantic Data Augmentation for Zero-Shot Cross-Lingual Natural Language Understanding [31.272603877215733]
言語間の表現学習は、リソースに富んだデータからリソースに密着したデータへ知識を伝達し、異なる言語の意味理解能力を改善する。
言語間自然言語理解のためのunsupervised Pseudo Semantic Data Augmentation (UniPSDA) 機構を提案する。
論文 参考訳(メタデータ) (2024-06-24T07:27:01Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Improving Natural Language Inference in Arabic using Transformer Models
and Linguistically Informed Pre-Training [0.34998703934432673]
本稿では,自然言語処理分野におけるアラビア語テキストデータの分類について述べる。
この制限を克服するため、公開リソースから専用のデータセットを作成します。
言語固有モデル (AraBERT) が最先端の多言語アプローチと競合することがわかった。
論文 参考訳(メタデータ) (2023-07-27T07:40:11Z) - A Multi-level Supervised Contrastive Learning Framework for Low-Resource
Natural Language Inference [54.678516076366506]
自然言語推論(NLI)は、自然言語理解において、ますます重要な課題である。
本稿では,低リソースな自然言語推論のためのマルチSCLという,マルチレベルの教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-31T05:54:18Z) - Natural Language Generation Using Link Grammar for General
Conversational Intelligence [0.0]
Link Grammarデータベースを用いて,文法的に有効な文を自動的に生成する手法を提案する。
この自然言語生成方法は、最先端のベースラインをはるかに上回り、プロトAGI質問応答パイプラインの最終コンポーネントとして機能する。
論文 参考訳(メタデータ) (2021-04-19T06:16:07Z) - Structured Prediction as Translation between Augmented Natural Languages [109.50236248762877]
本研究では,構造化予測言語の課題を解決するために,新しいフレームワークであるTANL(Translation between Augmented Natural Languages)を提案する。
タスク固有の差別を訓練することで問題に取り組む代わりに、拡張自然言語間の翻訳タスクとして位置づける。
提案手法は, タスク固有のモデルに適合するか, 性能に優れ, 特に, 共同エンティティと関係抽出に関する新たな最先端結果が得られる。
論文 参考訳(メタデータ) (2021-01-14T18:32:21Z) - Cross-lingual Dependency Parsing as Domain Adaptation [48.69930912510414]
言語間転送学習はドメイン内学習と同じくらい不可欠である。
我々は、監視なしで普遍的な特徴を抽出する事前学習タスクの能力を利用する。
従来のセルフトレーニングと2つの事前トレーニングを組み合わせる。
論文 参考訳(メタデータ) (2020-12-24T08:14:36Z) - OCNLI: Original Chinese Natural Language Inference [21.540733910984006]
我々は,中国における最初の大規模NLIデータセット(56,000の注釈付き文対からなる)であるOriginal Chinese Natural Language Inference dataset(OCNLI)を提示する。
NLIを他の言語に拡張しようとする最近の試みとは異なり、私たちのデータセットは自動翻訳や非専門家アノテーションに依存していません。
我々は、中国語の最先端の事前訓練モデルを用いて、データセット上でいくつかのベースライン結果を確立し、人間のパフォーマンスよりもはるかに優れたパフォーマンスモデルを見つける。
論文 参考訳(メタデータ) (2020-10-12T04:25:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。