論文の概要: Establishing Baselines for Text Classification in Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2005.02068v1
- Date: Tue, 5 May 2020 11:17:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 13:58:32.117795
- Title: Establishing Baselines for Text Classification in Low-Resource Languages
- Title(参考訳): 低リソース言語におけるテキスト分類のためのベースラインの確立
- Authors: Jan Christian Blaise Cruz and Charibeth Cheng
- Abstract要約: テキスト分類のためのベンチマークデータセットとして、未発表のデータセットを2つ導入する。
次に、フィリピン設定で使用するために、より優れたBERTとDistilBERTモデルを事前訓練する。
第3に,モデルの性能劣化に対する抵抗を,トレーニングサンプル数を減らすことでベンチマークする簡易劣化試験を導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While transformer-based finetuning techniques have proven effective in tasks
that involve low-resource, low-data environments, a lack of properly
established baselines and benchmark datasets make it hard to compare different
approaches that are aimed at tackling the low-resource setting. In this work,
we provide three contributions. First, we introduce two previously unreleased
datasets as benchmark datasets for text classification and low-resource
multilabel text classification for the low-resource language Filipino. Second,
we pretrain better BERT and DistilBERT models for use within the Filipino
setting. Third, we introduce a simple degradation test that benchmarks a
model's resistance to performance degradation as the number of training samples
are reduced. We analyze our pretrained model's degradation speeds and look
towards the use of this method for comparing models aimed at operating within
the low-resource setting. We release all our models and datasets for the
research community to use.
- Abstract(参考訳): トランスフォーマーベースの微調整技術は、低リソース、低データ環境を含むタスクにおいて有効であることが証明されているが、適切に確立されたベースラインとベンチマークデータセットの欠如は、低リソース設定に対処する様々なアプローチを比較するのを難しくしている。
この研究には3つの貢献があります。
まず、未リリースの2つのデータセットを、テキスト分類のためのベンチマークデータセットと、低リソース言語であるfilipinoのための低リソースマルチラベルテキスト分類として紹介する。
次に、フィリピン設定で使用するために、より優れたBERTとDistilBERTモデルを事前訓練する。
第3に,モデルの性能劣化に対する抵抗を,トレーニングサンプル数を減らすことでベンチマークする簡易劣化試験を導入する。
我々は,事前学習したモデルの劣化速度を解析し,低リソース環境での運用を目的としたモデルの比較に用いる方法を検討する。
研究コミュニティが使用するすべてのモデルとデータセットをリリースします。
関連論文リスト
- How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。
一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。
我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-04T13:39:21Z) - Leveraging Parameter Efficient Training Methods for Low Resource Text Classification: A Case Study in Marathi [0.4194295877935868]
Indic low-resource language Marathi のPEFT法について検討する。
これらのアプローチは、MahaSent、MahaHate、MahaNewsといった著名なテキスト分類データセットに基づいて評価される。
これらの手法は完全微調整と競合し,精度を損なうことなく使用できることを示す。
論文 参考訳(メタデータ) (2024-08-06T13:16:16Z) - Improving Sampling Methods for Fine-tuning SentenceBERT in Text Streams [49.3179290313959]
本研究では,選択的な微調整言語モデルの設計した7つのテキストサンプリング手法の有効性について検討した。
これらの手法がSBERTモデルの微調整に与える影響を, 4つの異なる損失関数を用いて正確に評価する。
その結果,テキストストリームの分類にはソフトマックスの損失とバッチ・オール・トリプレットの損失が特に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T23:41:52Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - High-Resource Methodological Bias in Low-Resource Investigations [27.419604203739052]
我々は、高リソース言語からのダウンサンプリングの結果、低リソースのデータセットとは異なる特性のデータセットが得られることを示した。
結論として,データセットの簡易サンプリングは,これらのシステムが低リソースシナリオでどのように動作するかというバイアスのかかる見方をもたらす。
論文 参考訳(メタデータ) (2022-11-14T17:04:38Z) - Semi-Supervised Learning Based on Reference Model for Low-resource TTS [32.731900584216724]
本稿では,ラベル付きターゲットデータに制限があるニューラルネットワークの半教師付き学習手法を提案する。
実験結果から,対象データに制限のある半教師付き学習手法は,音声合成における自然性と頑健性を達成するために,テストデータの音声品質を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2022-10-25T07:48:07Z) - Towards Realistic Low-resource Relation Extraction: A Benchmark with
Empirical Baseline Study [51.33182775762785]
本稿では,低リソース環境下での関係抽出システムを構築するための実証的研究について述べる。
低リソース環境での性能を評価するための3つのスキームについて検討する。 (i) ラベル付きラベル付きデータを用いた異なるタイプのプロンプトベース手法、 (ii) 長期分布問題に対処する多様なバランシング手法、 (iii) ラベル付きインドメインデータを生成するためのデータ拡張技術と自己学習。
論文 参考訳(メタデータ) (2022-10-19T15:46:37Z) - Exploiting All Samples in Low-Resource Sentence Classification: Early Stopping and Initialization Parameters [6.368871731116769]
本研究では,データやモデルの再設計を伴わないラベル付きサンプルの活用方法について論じる。
重量平均化法を用いてモデルを初期化する統合手法を提案し,全てのサンプルを非バリデーション停止法を用いて訓練する。
本結果は,トレーニング戦略の重要性を強調し,低リソース環境における統合手法が第一歩となることを示唆している。
論文 参考訳(メタデータ) (2021-11-12T22:31:47Z) - Fine-tuning BERT for Low-Resource Natural Language Understanding via
Active Learning [30.5853328612593]
本研究では,事前学習した Transformer ベースの言語モデル BERT の微調整手法について検討する。
実験結果から,モデルの知識獲得度を最大化することで,モデル性能の優位性を示す。
我々は、微調整中の言語モデルの凍結層の利点を分析し、トレーニング可能なパラメータの数を減らす。
論文 参考訳(メタデータ) (2020-12-04T08:34:39Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - BREEDS: Benchmarks for Subpopulation Shift [98.90314444545204]
本研究では,人口変動に対するモデルのロバスト性を評価する手法を開発した。
既存のデータセットの基盤となるクラス構造を利用して、トレーニングとテストの分散を構成するデータサブポピュレーションを制御する。
この手法をImageNetデータセットに適用し、様々な粒度のサブポピュレーションシフトベンチマークスイートを作成する。
論文 参考訳(メタデータ) (2020-08-11T17:04:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。