論文の概要: Establishing Baselines for Text Classification in Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2005.02068v1
- Date: Tue, 5 May 2020 11:17:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 13:58:32.117795
- Title: Establishing Baselines for Text Classification in Low-Resource Languages
- Title(参考訳): 低リソース言語におけるテキスト分類のためのベースラインの確立
- Authors: Jan Christian Blaise Cruz and Charibeth Cheng
- Abstract要約: テキスト分類のためのベンチマークデータセットとして、未発表のデータセットを2つ導入する。
次に、フィリピン設定で使用するために、より優れたBERTとDistilBERTモデルを事前訓練する。
第3に,モデルの性能劣化に対する抵抗を,トレーニングサンプル数を減らすことでベンチマークする簡易劣化試験を導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While transformer-based finetuning techniques have proven effective in tasks
that involve low-resource, low-data environments, a lack of properly
established baselines and benchmark datasets make it hard to compare different
approaches that are aimed at tackling the low-resource setting. In this work,
we provide three contributions. First, we introduce two previously unreleased
datasets as benchmark datasets for text classification and low-resource
multilabel text classification for the low-resource language Filipino. Second,
we pretrain better BERT and DistilBERT models for use within the Filipino
setting. Third, we introduce a simple degradation test that benchmarks a
model's resistance to performance degradation as the number of training samples
are reduced. We analyze our pretrained model's degradation speeds and look
towards the use of this method for comparing models aimed at operating within
the low-resource setting. We release all our models and datasets for the
research community to use.
- Abstract(参考訳): トランスフォーマーベースの微調整技術は、低リソース、低データ環境を含むタスクにおいて有効であることが証明されているが、適切に確立されたベースラインとベンチマークデータセットの欠如は、低リソース設定に対処する様々なアプローチを比較するのを難しくしている。
この研究には3つの貢献があります。
まず、未リリースの2つのデータセットを、テキスト分類のためのベンチマークデータセットと、低リソース言語であるfilipinoのための低リソースマルチラベルテキスト分類として紹介する。
次に、フィリピン設定で使用するために、より優れたBERTとDistilBERTモデルを事前訓練する。
第3に,モデルの性能劣化に対する抵抗を,トレーニングサンプル数を減らすことでベンチマークする簡易劣化試験を導入する。
我々は,事前学習したモデルの劣化速度を解析し,低リソース環境での運用を目的としたモデルの比較に用いる方法を検討する。
研究コミュニティが使用するすべてのモデルとデータセットをリリースします。
関連論文リスト
- Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - High-Resource Methodological Bias in Low-Resource Investigations [27.419604203739052]
我々は、高リソース言語からのダウンサンプリングの結果、低リソースのデータセットとは異なる特性のデータセットが得られることを示した。
結論として,データセットの簡易サンプリングは,これらのシステムが低リソースシナリオでどのように動作するかというバイアスのかかる見方をもたらす。
論文 参考訳(メタデータ) (2022-11-14T17:04:38Z) - Semi-Supervised Learning Based on Reference Model for Low-resource TTS [32.731900584216724]
本稿では,ラベル付きターゲットデータに制限があるニューラルネットワークの半教師付き学習手法を提案する。
実験結果から,対象データに制限のある半教師付き学習手法は,音声合成における自然性と頑健性を達成するために,テストデータの音声品質を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2022-10-25T07:48:07Z) - Towards Realistic Low-resource Relation Extraction: A Benchmark with
Empirical Baseline Study [51.33182775762785]
本稿では,低リソース環境下での関係抽出システムを構築するための実証的研究について述べる。
低リソース環境での性能を評価するための3つのスキームについて検討する。 (i) ラベル付きラベル付きデータを用いた異なるタイプのプロンプトベース手法、 (ii) 長期分布問題に対処する多様なバランシング手法、 (iii) ラベル付きインドメインデータを生成するためのデータ拡張技術と自己学習。
論文 参考訳(メタデータ) (2022-10-19T15:46:37Z) - Variational Information Bottleneck for Effective Low-Resource
Fine-Tuning [40.66716433803935]
低リソースターゲットタスクの微調整において,無関係な特徴を抑えるために,変動情報ボット (VIB) を提案する。
我々のVIBモデルは、自然言語推論データセットのバイアスに対してより堅牢な文表現を見つける。
論文 参考訳(メタデータ) (2021-06-10T03:08:13Z) - Fine-tuning BERT for Low-Resource Natural Language Understanding via
Active Learning [30.5853328612593]
本研究では,事前学習した Transformer ベースの言語モデル BERT の微調整手法について検討する。
実験結果から,モデルの知識獲得度を最大化することで,モデル性能の優位性を示す。
我々は、微調整中の言語モデルの凍結層の利点を分析し、トレーニング可能なパラメータの数を減らす。
論文 参考訳(メタデータ) (2020-12-04T08:34:39Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - BREEDS: Benchmarks for Subpopulation Shift [98.90314444545204]
本研究では,人口変動に対するモデルのロバスト性を評価する手法を開発した。
既存のデータセットの基盤となるクラス構造を利用して、トレーニングとテストの分散を構成するデータサブポピュレーションを制御する。
この手法をImageNetデータセットに適用し、様々な粒度のサブポピュレーションシフトベンチマークスイートを作成する。
論文 参考訳(メタデータ) (2020-08-11T17:04:47Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。