論文の概要: Data-driven Model Generalizability in Crosslinguistic Low-resource
Morphological Segmentation
- arxiv url: http://arxiv.org/abs/2201.01845v1
- Date: Wed, 5 Jan 2022 22:19:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-07 21:26:22.995882
- Title: Data-driven Model Generalizability in Crosslinguistic Low-resource
Morphological Segmentation
- Title(参考訳): クロス言語的低リソース形態素セグメンテーションにおけるデータ駆動モデル一般化可能性
- Authors: Zoey Liu, Emily Prud'hommeaux
- Abstract要約: 低リソースのシナリオでは、データコレクションのアーティファクトは、外れ値のデータセットを生成できるため、モデルパフォーマンスに関する結論が一致している可能性がある。
パラメータ化の異なるモデルの3つのクラスを比較し、11の言語から6つの言語ファミリーのデータを抽出する。
その結果、モデル一般化の程度はデータセットの特性に依存することが示され、必ずしもデータセットのサイズに大きく依存するとは限らない。
- 参考スコア(独自算出の注目度): 4.339613097080119
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Common designs of model evaluation typically focus on monolingual settings,
where different models are compared according to their performance on a single
data set that is assumed to be representative of all possible data for the task
at hand. While this may be reasonable for a large data set, this assumption is
difficult to maintain in low-resource scenarios, where artifacts of the data
collection can yield data sets that are outliers, potentially making
conclusions about model performance coincidental. To address these concerns, we
investigate model generalizability in crosslinguistic low-resource scenarios.
Using morphological segmentation as the test case, we compare three broad
classes of models with different parameterizations, taking data from 11
languages across 6 language families. In each experimental setting, we evaluate
all models on a first data set, then examine their performance consistency when
introducing new randomly sampled data sets with the same size and when applying
the trained models to unseen test sets of varying sizes. The results
demonstrate that the extent of model generalization depends on the
characteristics of the data set, and does not necessarily rely heavily on the
data set size. Among the characteristics that we studied, the ratio of morpheme
overlap and that of the average number of morphemes per word between the
training and test sets are the two most prominent factors. Our findings suggest
that future work should adopt random sampling to construct data sets with
different sizes in order to make more responsible claims about model
evaluation.
- Abstract(参考訳): モデル評価の一般的な設計は、通常、モノリンガルの設定に焦点を合わせ、それぞれのモデルのパフォーマンスに応じて、目の前のタスクに可能なすべてのデータを表すと仮定された単一のデータセットで異なるモデルを比較する。
これは大規模なデータセットにとって合理的かもしれないが、データ収集のアーティファクトが異常値であるデータセットを生成できる低リソースのシナリオでは、この仮定を維持するのは難しい。
これらの問題に対処するため,クロス言語的低リソースシナリオにおけるモデル一般化可能性について検討する。
実験ケースとして形態素セグメンテーションを用い、6つの言語ファミリーの11言語からデータを抽出し、パラメータ化の異なる3種類のモデルを比較した。
各実験環境では,1次データセット上の全てのモデルを評価し,同じサイズでランダムにサンプリングされた新しいデータセットを導入する場合と,異なるサイズのテストセットにトレーニングされたモデルを適用する場合のパフォーマンスの整合性を検討する。
その結果、モデル一般化の程度はデータセットの特性に依存することが示され、必ずしもデータセットのサイズに大きく依存するとは限らない。
研究した特徴のうち, 形態素の重なりと, 単語毎のモルヒム数の平均数は, トレーニングセットとテストセットの2つが最も顕著な要因である。
本研究は, モデル評価についてより責任ある主張を行うために, 異なる大きさのデータセットを構築するために, ランダムサンプリングを採用することを示唆している。
関連論文リスト
- Target-Aware Language Modeling via Granular Data Sampling [25.957424920194914]
言語モデルの事前訓練は、一般的に幅広いユースケースをターゲットにし、多様なソースからのデータを取り込む。
コスト効率が高く簡単なアプローチは、低次元のデータ特徴をサンプリングすることである。
事前学習したモデルはRefinedWebの全データと同等に動作し、125Mから1.5Bまでのモデルサイズに対してランダムに選択されたサンプルより優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-23T04:52:17Z) - The Effect of Data Partitioning Strategy on Model Generalizability: A Case Study of Morphological Segmentation [6.979385830035607]
さまざまな形態体系を持つ10の言語ファミリーにまたがる10の先住民または絶滅危惧言語を含む、19の言語からのデータを使用します。
トレーニングと評価セットの様々な組み合わせと新しいテストデータを用いて大規模な実験を行う。
その結果、新しいテストデータに直面すると、ランダムスプリットからトレーニングされたモデルにより、より高い数値スコアが得られることがわかった。
論文 参考訳(メタデータ) (2024-04-14T22:22:58Z) - A Case for Dataset Specific Profiling [0.9023847175654603]
データ駆動科学は、科学的な発見が、リッチで規律固有のデータセットに対する計算AIモデルの実行に依存する、新興パラダイムである。
現代的な機械学習フレームワークを使用することで、誰でも科学的応用を可能にするデータに隠された概念を明らかにする計算モデルを開発し、実行することができる。
重要で広く使われているデータセットでは、データセットに対して実行できるすべての計算モデルのパフォーマンスを計算することは、クラウドリソースの点でコストを禁ずる。
論文 参考訳(メタデータ) (2022-08-01T18:38:05Z) - Identifying the Context Shift between Test Benchmarks and Production
Data [1.2259552039796024]
データセットベンチマークにおける機械学習モデルの精度と実運用データの間には、パフォーマンスのギャップがある。
分布変化とモデル予測誤差につながる文脈変化を同定する2つの手法を概説する。
本研究は,機械学習モデルに基づく暗黙の仮定を強調するケーススタディを2つ提示する。
論文 参考訳(メタデータ) (2022-07-03T14:54:54Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z) - Characterizing Fairness Over the Set of Good Models Under Selective
Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。
到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。
選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2021-01-02T02:11:37Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。