論文の概要: Eeny, meeny, miny, moe. How to choose data for morphological inflection
- arxiv url: http://arxiv.org/abs/2210.14465v1
- Date: Wed, 26 Oct 2022 04:33:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 14:23:56.432581
- Title: Eeny, meeny, miny, moe. How to choose data for morphological inflection
- Title(参考訳): Eeny, meeny, miny, moe.
形態素インフレクションのためのデータ選択方法
- Authors: Saliha Muradoglu and Mans Hulden
- Abstract要約: 本稿では,トランスフォーマーモデルを用いた形態的インフレクション作業のための4つのサンプリング戦略について検討する。
そこで本研究では,30言語にまたがる戦略の頑健さについて検討する。
この結果から,モデル信頼度とエントロピーに基づくデータ選択のメリットが明らかとなった。
- 参考スコア(独自算出の注目度): 8.914777617216862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data scarcity is a widespread problem in numerous natural language processing
(NLP) tasks for low-resource languages. Within morphology, the labour-intensive
work of tagging/glossing data is a serious bottleneck for both NLP and language
documentation. Active learning (AL) aims to reduce the cost of data annotation
by selecting data that is most informative for improving the model. In this
paper, we explore four sampling strategies for the task of morphological
inflection using a Transformer model: a pair of oracle experiments where data
is chosen based on whether the model already can or cannot inflect the test
forms correctly, as well as strategies based on high/low model confidence,
entropy, as well as random selection. We investigate the robustness of each
strategy across 30 typologically diverse languages. We also perform a more
in-depth case study of Nat\"ugu. Our results show a clear benefit to selecting
data based on model confidence and entropy. Unsurprisingly, the oracle
experiment, where only incorrectly handled forms are chosen for further
training, which is presented as a proxy for linguist/language consultant
feedback, shows the most improvement. This is followed closely by choosing
low-confidence and high-entropy predictions. We also show that despite the
conventional wisdom of larger data sets yielding better accuracy, introducing
more instances of high-confidence or low-entropy forms, or forms that the model
can already inflect correctly, can reduce model performance.
- Abstract(参考訳): データ不足は、低リソース言語に対する多くの自然言語処理(NLP)タスクにおいて広範な問題である。
形態学において、データのタグ付けとグロースという労働集約的な作業は、NLPと言語ドキュメントの両方にとって深刻なボトルネックである。
アクティブラーニング(al)は、モデル改善に最も役立つデータを選択することで、データアノテーションのコストを削減することを目的としている。
本稿では,トランスフォーマーモデルを用いた形態的インフレクションの課題に対する4つのサンプリング戦略について検討する。1組のオラクル実験では,モデルがすでにテスト形式を正しく表現できるか否か,あるいは正しく表現できないか,および高低モデルの信頼性,エントロピー,ランダム選択に基づいて,データを選択する。
本研究では,30言語にまたがる戦略の堅牢性について検討する。
また,Nat\"ugu"のより詳細なケーススタディも実施する。
その結果,モデル信頼度とエントロピーに基づくデータ選択の利点が明らかとなった。
当然のことながら、言語コンサルタントのフィードバックのプロキシとして提示される、さらなるトレーニングのために不正に処理されたフォームのみが選択されるオラクル実験は、最も改善されている。
これに続いて、低信頼と高エントロピーの予測を選択する。
また,従来の大容量データセットの知恵により精度が向上し,高信頼や低エントロピー形式,あるいはモデルがすでに正確に表現できる形式の導入により,モデルの性能が低下することを示した。
関連論文リスト
- LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Information FOMO: The unhealthy fear of missing out on information. A method for removing misleading data for healthier models [0.0]
ミスリーディングや不要なデータは、マシンラーニング(ML)モデルの健全性や正確性に大きく影響します。
本稿では,データセット内の重要な情報を特定するシーケンシャルな選択法を提案する。
これらの不安定性は、基礎となるマップの複雑さの結果であり、極端な事象や重い尾と結びついている。
論文 参考訳(メタデータ) (2022-08-27T19:43:53Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Super-Prompting: Utilizing Model-Independent Contextual Data to Reduce
Data Annotation Required in Visual Commonsense Tasks [3.42658286826597]
我々は,言語モデルとマルチモーダル因果変換器モデルの両方における結果を改善するために,異なるプロンプトベースの微調整手法を解析する。
以上の結果から,モデルに依存しないインシデントベースの微調整により,微調整データセットの35%~40%のみを用いて,同等の精度で達成できることが示唆された。
論文 参考訳(メタデータ) (2022-04-25T18:56:55Z) - Uncertainty Estimation for Language Reward Models [5.33024001730262]
言語モデルは、テキストコーパスの教師なしトレーニングからさまざまな能力を学ぶことができる。
人間がラベル付きデータを提供するよりも選択肢を選択する方が簡単であり、事前の作業はそのような選好比較から報酬モデルをトレーニングすることで最先端のパフォーマンスを達成した。
能動的学習とリスク-逆強化学習を用いてサンプル効率とロバスト性を向上させる不確実性推定によるこれらの問題に対処することを模索する。
論文 参考訳(メタデータ) (2022-03-14T20:13:21Z) - How Does Data Corruption Affect Natural Language Understanding Models? A
Study on GLUE datasets [4.645287693363387]
モデルが微調整されたり、破損したデータでテストされた場合、ほとんどのGLUEタスクのパフォーマンスは高いままである。
提案したデータ変換は,特定のデータセットがモデルの言語理解能力を評価するための適切なテストベッドを構成する範囲を評価するための診断ツールとして利用することができる。
論文 参考訳(メタデータ) (2022-01-12T13:35:53Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Understanding and Improving Lexical Choice in Non-Autoregressive
Translation [98.11249019844281]
低周波ワードの有用な情報を復元するために、生データをNATモデルに公開することを提案する。
提案手法は,WMT14英語-ドイツ語とWMT16ルーマニア英語-英語データセットのSOTA NAT性能を27.8BLEU点,33.8BLEU点まで向上させる。
論文 参考訳(メタデータ) (2020-12-29T03:18:50Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。