論文の概要: High-Resource Methodological Bias in Low-Resource Investigations
- arxiv url: http://arxiv.org/abs/2211.07534v1
- Date: Mon, 14 Nov 2022 17:04:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 17:48:52.435620
- Title: High-Resource Methodological Bias in Low-Resource Investigations
- Title(参考訳): 低資源調査における高資源方法論バイアス
- Authors: Maartje ter Hoeve, David Grangier, Natalie Schluter
- Abstract要約: 我々は、高リソース言語からのダウンサンプリングの結果、低リソースのデータセットとは異なる特性のデータセットが得られることを示した。
結論として,データセットの簡易サンプリングは,これらのシステムが低リソースシナリオでどのように動作するかというバイアスのかかる見方をもたらす。
- 参考スコア(独自算出の注目度): 27.419604203739052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The central bottleneck for low-resource NLP is typically regarded to be the
quantity of accessible data, overlooking the contribution of data quality. This
is particularly seen in the development and evaluation of low-resource systems
via down sampling of high-resource language data. In this work we investigate
the validity of this approach, and we specifically focus on two well-known NLP
tasks for our empirical investigations: POS-tagging and machine translation. We
show that down sampling from a high-resource language results in datasets with
different properties than the low-resource datasets, impacting the model
performance for both POS-tagging and machine translation. Based on these
results we conclude that naive down sampling of datasets results in a biased
view of how well these systems work in a low-resource scenario.
- Abstract(参考訳): 低リソースNLPにおける中心的なボトルネックは、典型的には、データ品質の寄与を見越して、アクセス可能なデータの量であると考えられている。
これは特に、高リソース言語データのダウンサンプリングによる低リソースシステムの開発と評価で見られる。
本研究では,本手法の有効性について検討し,POSタグ付けと機械翻訳の2つのNLPタスクに着目した。
高いリソース言語からのサンプリングは、低リソースのデータセットとは異なる特性を持つデータセットとなり、posタグと機械翻訳の両方のモデル性能に影響を及ぼす。
これらの結果に基づき、データセットのサンプリングをナビブダウンすることで、低リソースシナリオにおいてこれらのシステムがいかにうまく機能するかのバイアス付きビューが得られると結論づけた。
関連論文リスト
- Order Matters in the Presence of Dataset Imbalance for Multilingual
Learning [53.74649778447903]
本稿では,高リソースタスクの事前学習をシンプルかつ効果的に行う方法と,高リソースタスクと低リソースタスクの混合による微調整について述べる。
ニューラルネットワーク翻訳(NMT)と多言語言語モデリングの改善について述べる。
論文 参考訳(メタデータ) (2023-12-11T05:46:57Z) - Towards Realistic Low-resource Relation Extraction: A Benchmark with
Empirical Baseline Study [51.33182775762785]
本稿では,低リソース環境下での関係抽出システムを構築するための実証的研究について述べる。
低リソース環境での性能を評価するための3つのスキームについて検討する。 (i) ラベル付きラベル付きデータを用いた異なるタイプのプロンプトベース手法、 (ii) 長期分布問題に対処する多様なバランシング手法、 (iii) ラベル付きインドメインデータを生成するためのデータ拡張技術と自己学習。
論文 参考訳(メタデータ) (2022-10-19T15:46:37Z) - Efficient Methods for Natural Language Processing: A Survey [76.34572727185896]
本研究は, 効率的なNLPにおける現在の手法と知見を合成し, 関連づけるものである。
我々は,限られた資源下でNLPを実施するためのガイダンスと,より効率的な手法を開発するための有望な研究方向性の両立を目指す。
論文 参考訳(メタデータ) (2022-08-31T20:32:35Z) - Data Augmentation for Low-Resource Named Entity Recognition Using
Backtranslation [1.195496689595016]
低リソースなエンティティ認識のための高品質で言語学的に多様な合成データを生成するために、バックトランスレーションを適用する。
材料科学(MaSciP)と生物医学領域(S800)の2つのデータセットについて実験を行った。
論文 参考訳(メタデータ) (2021-08-26T10:56:39Z) - A Survey on Low-Resource Neural Machine Translation [106.51056217748388]
我々は、関連する作品を、使用した補助データに基づいて3つのカテゴリに分類する。
私たちの調査は、研究者がこの分野をよりよく理解し、より良いアルゴリズムを設計するきっかけになることを期待しています。
論文 参考訳(メタデータ) (2021-07-09T06:26:38Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Variational Information Bottleneck for Effective Low-Resource
Fine-Tuning [40.66716433803935]
低リソースターゲットタスクの微調整において,無関係な特徴を抑えるために,変動情報ボット (VIB) を提案する。
我々のVIBモデルは、自然言語推論データセットのバイアスに対してより堅牢な文表現を見つける。
論文 参考訳(メタデータ) (2021-06-10T03:08:13Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - Establishing Baselines for Text Classification in Low-Resource Languages [0.0]
テキスト分類のためのベンチマークデータセットとして、未発表のデータセットを2つ導入する。
次に、フィリピン設定で使用するために、より優れたBERTとDistilBERTモデルを事前訓練する。
第3に,モデルの性能劣化に対する抵抗を,トレーニングサンプル数を減らすことでベンチマークする簡易劣化試験を導入する。
論文 参考訳(メタデータ) (2020-05-05T11:17:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。