論文の概要: The Unreasonable Effectiveness of Machine Learning in Moldavian versus
Romanian Dialect Identification
- arxiv url: http://arxiv.org/abs/2007.15700v3
- Date: Mon, 15 Nov 2021 18:51:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-05 14:09:13.134834
- Title: The Unreasonable Effectiveness of Machine Learning in Moldavian versus
Romanian Dialect Identification
- Title(参考訳): モルダヴィアとルーマニアの方言識別における機械学習の有効性
- Authors: Mihaela G\u{a}man, Radu Tudor Ionescu
- Abstract要約: モルダヴィア対ルーマニアのクロスディレクト・トピック識別のフォローアップ: VarDial 2019 Evaluation Campaignの共有タスク。
実験により、MLモデルは、文レベルでも、異なる領域にわたっても、方言を正確に識別できることが示されている。
アンサンブル学習を用いた改良型MLモデルを提案する。
- 参考スコア(独自算出の注目度): 24.182791316595576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by the seemingly high accuracy levels of machine learning models in
Moldavian versus Romanian dialect identification and the increasing research
interest on this topic, we provide a follow-up on the Moldavian versus Romanian
Cross-Dialect Topic Identification (MRC) shared task of the VarDial 2019
Evaluation Campaign. The shared task included two sub-task types: one that
consisted in discriminating between the Moldavian and Romanian dialects and one
that consisted in classifying documents by topic across the two dialects of
Romanian. Participants achieved impressive scores, e.g. the top model for
Moldavian versus Romanian dialect identification obtained a macro F1 score of
0.895. We conduct a subjective evaluation by human annotators, showing that
humans attain much lower accuracy rates compared to machine learning (ML)
models. Hence, it remains unclear why the methods proposed by participants
attain such high accuracy rates. Our goal is to understand (i) why the proposed
methods work so well (by visualizing the discriminative features) and (ii) to
what extent these methods can keep their high accuracy levels, e.g. when we
shorten the text samples to single sentences or when we use tweets at inference
time. A secondary goal of our work is to propose an improved ML model using
ensemble learning. Our experiments show that ML models can accurately identify
the dialects, even at the sentence level and across different domains (news
articles versus tweets). We also analyze the most discriminative features of
the best performing models, providing some explanations behind the decisions
taken by these models. Interestingly, we learn new dialectal patterns
previously unknown to us or to our human annotators. Furthermore, we conduct
experiments showing that the machine learning performance on the MRC shared
task can be improved through an ensemble based on stacking.
- Abstract(参考訳): モルダヴィア語とルーマニア語の方言識別における機械学習モデルの一見高い正確さと、この話題に対する研究の関心の高まりに動機づけられ、モルダヴィア語対ルーマニア語クロスダイアレクトトピック識別(mrc)のフォローアップとして、vardial 2019評価キャンペーンの共有タスクを提供する。
1つはモルダヴィア方言とルーマニア方言を区別すること、もう1つはルーマニアの2つの方言をまたいでトピックごとに文書を分類することであった。
例えばモルダヴィア語とルーマニア語の方言識別のトップモデルは0.895のマクロf1スコアを得た。
我々は,人間のアノテータによる主観評価を行い,機械学習(ML)モデルと比較して,人間の精度がはるかに低いことを示す。
したがって、なぜ参加者が提案した手法がこれほど高い精度を達成するのかは明らかでない。
私たちのゴールは理解すること
(i)なぜ提案手法がうまく機能するのか(識別的特徴を可視化することにより)
(ii)例えば、テキストサンプルを1文に短縮したり、推論時にツィートを使用する場合など、これらの方法がどの程度高い精度を維持するか。
本研究の第二の目標は,アンサンブル学習を用いた改良mlモデルの提案である。
実験の結果,MLモデルは文レベルでも,異なる領域(ニュース記事対つぶやき)にわたって,方言を正確に識別できることがわかった。
また、最高のパフォーマンスモデルの最も差別的な特徴を分析し、これらのモデルによる決定の背後にあるいくつかの説明を提供する。
興味深いことに、以前は知られていなかった新しい方言パターンや人間の注釈に学習する。
さらに,MRC共有タスクにおける機械学習性能を,積み重ねに基づくアンサンブルにより改善できることを示す実験を行った。
関連論文リスト
- A New Method for Cross-Lingual-based Semantic Role Labeling [5.992526851963307]
英語とペルシア語のセマンティック・ロール・ラベリングを訓練するためのディープラーニングアルゴリズムが提案されている。
その結果,Niksirt et al.のモデルと比較すると,有意な改善が認められた。
セマンティックロールラベリングのための言語間メソッドの開発は、約束を守る。
論文 参考訳(メタデータ) (2024-08-28T16:06:12Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - ProsAudit, a prosodic benchmark for self-supervised speech models [14.198508548718676]
ProsAuditは、自己教師付き学習(SSL)音声モデルにおける構造的韻律的知識を評価するためのベンチマークである。
2つのサブタスク、対応するメトリクス、評価データセットで構成される。
論文 参考訳(メタデータ) (2023-02-23T14:30:23Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。