論文の概要: The Effect of Data Partitioning Strategy on Model Generalizability: A Case Study of Morphological Segmentation
- arxiv url: http://arxiv.org/abs/2404.09371v1
- Date: Sun, 14 Apr 2024 22:22:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 14:18:53.650316
- Title: The Effect of Data Partitioning Strategy on Model Generalizability: A Case Study of Morphological Segmentation
- Title(参考訳): データ分割戦略がモデル一般化性に及ぼす影響:形態的セグメンテーションを事例として
- Authors: Zoey Liu, Bonnie J. Dorr,
- Abstract要約: さまざまな形態体系を持つ10の言語ファミリーにまたがる10の先住民または絶滅危惧言語を含む、19の言語からのデータを使用します。
トレーニングと評価セットの様々な組み合わせと新しいテストデータを用いて大規模な実験を行う。
その結果、新しいテストデータに直面すると、ランダムスプリットからトレーニングされたモデルにより、より高い数値スコアが得られることがわかった。
- 参考スコア(独自算出の注目度): 6.979385830035607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work to enhance data partitioning strategies for more realistic model evaluation face challenges in providing a clear optimal choice. This study addresses these challenges, focusing on morphological segmentation and synthesizing limitations related to language diversity, adoption of multiple datasets and splits, and detailed model comparisons. Our study leverages data from 19 languages, including ten indigenous or endangered languages across 10 language families with diverse morphological systems (polysynthetic, fusional, and agglutinative) and different degrees of data availability. We conduct large-scale experimentation with varying sized combinations of training and evaluation sets as well as new test data. Our results show that, when faced with new test data: (1) models trained from random splits are able to achieve higher numerical scores; (2) model rankings derived from random splits tend to generalize more consistently.
- Abstract(参考訳): より現実的なモデル評価のためのデータパーティショニング戦略を強化するための最近の取り組みは、明確な最適な選択肢を提供する上で課題に直面している。
本研究はこれらの課題に対処し,言語多様性に関連する形態的セグメンテーションと合成の限界,複数のデータセットと分割の採用,詳細なモデル比較に焦点をあてる。
本研究は,多種多様な形態素系(多義語,融合語,凝集語)を持つ10の言語族にまたがる10の言語・絶滅危惧言語を含む19の言語からのデータと,さまざまなデータ利用度を活用している。
我々は,新しいテストデータだけでなく,様々な規模のトレーニングと評価セットの組み合わせで大規模な実験を行う。
その結果,(1) ランダムスプリットから学習したモデルでは高い数値のスコアが得られ,(2) ランダムスプリットから得られたモデルランキングはより一貫して一般化する傾向にあることがわかった。
関連論文リスト
- SimOAP: Improve Coherence and Consistency in Persona-based Dialogue
Generation via Over-sampling and Post-evaluation [54.66399120084227]
大規模コーパスで訓練された言語モデルは、オープンドメイン対話において驚くほど流動的な結果を生み出すことができる。
ペルソナに基づく対話生成タスクでは、一貫性と一貫性が言語モデルにとって大きな課題である。
オーバーサンプリングとポスト評価という2段階のSimOAP戦略が提案されている。
論文 参考訳(メタデータ) (2023-05-18T17:23:00Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Multi-Scales Data Augmentation Approach In Natural Language Inference
For Artifacts Mitigation And Pre-Trained Model Optimization [0.0]
クラウドソーシングされたStanford Natural Language Inference corpus内でデータセットのアーティファクトを分析し、配置するための様々な技術を提供する。
データセットアーティファクトを緩和するために、2つの異なるフレームワークで独自のマルチスケールデータ拡張技術を採用している。
本手法は, 摂動試験に対するモデルの抵抗性を向上し, トレーニング済みベースラインの連続的な性能向上を可能にする。
論文 参考訳(メタデータ) (2022-12-16T23:37:44Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Multi-model Ensemble Learning Method for Human Expression Recognition [31.76775306959038]
本研究では,大量の実生活データを収集するアンサンブル学習法に基づく手法を提案する。
ABAW2022 ChallengeのAffWild2データセット上で多くの実験を行い、本ソリューションの有効性を実証した。
論文 参考訳(メタデータ) (2022-03-28T03:15:06Z) - Data-driven Model Generalizability in Crosslinguistic Low-resource
Morphological Segmentation [4.339613097080119]
低リソースのシナリオでは、データコレクションのアーティファクトは、外れ値のデータセットを生成できるため、モデルパフォーマンスに関する結論が一致している可能性がある。
パラメータ化の異なるモデルの3つのクラスを比較し、11の言語から6つの言語ファミリーのデータを抽出する。
その結果、モデル一般化の程度はデータセットの特性に依存することが示され、必ずしもデータセットのサイズに大きく依存するとは限らない。
論文 参考訳(メタデータ) (2022-01-05T22:19:10Z) - Modeling Shared Responses in Neuroimaging Studies through MultiView ICA [94.31804763196116]
被験者の大規模なコホートを含むグループ研究は、脳機能組織に関する一般的な結論を引き出す上で重要である。
グループ研究のための新しい多視点独立成分分析モデルを提案し、各被験者のデータを共有独立音源と雑音の線形結合としてモデル化する。
まず、fMRIデータを用いて、被験者間の共通音源の同定における感度の向上を示す。
論文 参考訳(メタデータ) (2020-06-11T17:29:53Z) - A Systematic Assessment of Syntactic Generalization in Neural Language
Models [20.589737524626745]
本稿では,ニューラルネットワークモデルの構文的知識を体系的に評価する。
モデルアーキテクチャによる構文一般化性能には大きな違いがある。
また, この結果から, パープレキシティと構文一般化性能の解離が明らかとなった。
論文 参考訳(メタデータ) (2020-05-07T18:35:25Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。