Fugu-MT 論文翻訳(概要): Comparison of Current Approaches to Lemmatization: A Case Study in Estonian

論文の概要: Comparison of Current Approaches to Lemmatization: A Case Study in Estonian

arxiv url: http://arxiv.org/abs/2404.15003v1
Date: Tue, 23 Apr 2024 13:06:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-24 14:01:50.110238
Title: Comparison of Current Approaches to Lemmatization: A Case Study in Estonian
Title（参考訳）: 語学化への最近のアプローチの比較:エストニアにおける事例研究
Authors: Aleksei Dorkin, Kairit Sirts,
Abstract要約: 本研究はエストニアに対する3つの異なる補題化アプローチを評価する。生成文字レベルモデル,パターンベース単語レベル分類モデル,ルールベース形態素解析
参考スコア（独自算出の注目度）: 0.21485350418225246
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This study evaluates three different lemmatization approaches to Estonian -- Generative character-level models, Pattern-based word-level classification models, and rule-based morphological analysis. According to our experiments, a significantly smaller Generative model consistently outperforms the Pattern-based classification model based on EstBERT. Additionally, we observe a relatively small overlap in errors made by all three models, indicating that an ensemble of different approaches could lead to improvements.
Abstract（参考訳）: 本研究では,エストニア語に対する3つの異なる補題化アプローチ – 生成的文字レベルモデル,パターンベース単語レベル分類モデル,ルールベース形態素解析 – を評価する。実験によると、生成モデルはかなり小さく、EstBERTに基づくパターンベースの分類モデルよりも一貫して優れています。さらに、3つのモデルで発生する誤差の比較的小さな重複が観察され、異なるアプローチのアンサンブルが改善につながる可能性が示唆された。

関連論文リスト

Supervised Score-Based Modeling by Gradient Boosting [49.556736252628745]
本稿では,スコアマッチングを組み合わせた勾配向上アルゴリズムとして,SSM(Supervised Score-based Model)を提案する。推測時間と予測精度のバランスをとるため,SSMの学習とサンプリングに関する理論的解析を行った。我々のモデルは、精度と推測時間の両方で既存のモデルより優れています。
論文参考訳（メタデータ） (2024-11-02T07:06:53Z)
Embedding-based statistical inference on generative models [10.948308354932639]
生成モデルの埋め込みに基づく表現に関する結果を、古典的な統計的推論設定に拡張する。類似」の概念の基盤として視点空間を用いることは、複数のモデルレベルの推論タスクに有効であることを示す。
論文参考訳（メタデータ） (2024-10-01T22:28:39Z)
Anchor Points: Benchmarking Models with Much Fewer Examples [88.02417913161356]
6つの人気のある言語分類ベンチマークでは、多数の点の正しいクラスに対するモデル信頼度はモデル間で強く相関している。 Anchor Point Selectionは,データセット全体にわたるモデル動作をキャプチャする,データセットの小さなサブセットを選択する手法である。平均絶対誤差が低いデータセットの他のすべての点について、クラスごとの予測モデルを推定するために、いくつかのアンカーポイントを使用することができる。
論文参考訳（メタデータ） (2023-09-14T17:45:51Z)
Comparing Foundation Models using Data Kernels [13.099029073152257]
基礎モデルの埋め込み空間幾何学を直接比較するための方法論を提案する。提案手法はランダムグラフ理論に基づいており, 埋め込み類似性の有効な仮説検証を可能にする。本稿では, 距離関数を付加したモデルの多様体が, 下流の指標と強く相関することを示す。
論文参考訳（メタデータ） (2023-05-09T02:01:07Z)
On the Compositional Generalization Gap of In-Context Learning [73.09193595292233]
In-distriion (ID) と Out-of-distriion (OOD) の相違について考察する。我々は,3つの意味解析データセットを用いて,OPT,BLOOM,CodeGen,Codexの4つのモデルファミリを評価する。
論文参考訳（メタデータ） (2022-11-15T19:56:37Z)
Investigating Ensemble Methods for Model Robustness Improvement of Text Classifiers [66.36045164286854]
既存のバイアス機能を分析し、すべてのケースに最適なモデルが存在しないことを実証します。適切なバイアスモデルを選択することで、より洗練されたモデル設計でベースラインよりもロバスト性が得られる。
論文参考訳（メタデータ） (2022-10-28T17:52:10Z)
Comparative Error Analysis in Neural and Finite-state Models for Unsupervised Character-level Transduction [34.1177259741046]
2つのモデルクラスを並べて比較すると、同等のパフォーマンスを達成したとしても、異なるタイプのエラーが発生する傾向があります。復号時における有限状態とシーケンス・ツー・シーケンスの組合せが、出力を定量的かつ質的にどう影響するかを考察する。
論文参考訳（メタデータ） (2021-06-24T00:09:24Z)
Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文参考訳（メタデータ） (2020-10-25T18:51:15Z)
Learning from Aggregate Observations [82.44304647051243]
本研究では,一組のインスタンスに監視信号が与えられる集合観察から学習する問題について検討する。本稿では,多種多様な集合観測に適合する一般的な確率的枠組みを提案する。単純な極大解は様々な微分可能なモデルに適用できる。
論文参考訳（メタデータ） (2020-04-14T06:18:50Z)
Overestimation of Syntactic Representationin Neural Language Models [16.765097098482286]
構文構造を誘導するモデルの能力を決定する一般的な方法の1つは、テンプレートに従って生成された文字列上でモデルを訓練し、それらの文字列と表面的に類似した文字列を異なる構文で区別するモデルの能力をテストすることである。本稿では,2つの非シンタクティックなベースライン言語モデルを用いた最近の論文の肯定的な結果を再現することで,このアプローチの根本的な問題を説明する。
論文参考訳（メタデータ） (2020-04-10T15:13:03Z)
Pattern Similarity-based Machine Learning Methods for Mid-term Load Forecasting: A Comparative Study [0.0]
パターン類似性に基づく年次電力需要予測手法について検討した。モデルの不可欠な部分は、時系列シーケンスのパターンを用いた時系列表現である。近接モデル,ファジィ近傍モデル,カーネル回帰モデル,一般回帰ニューラルネットワークの4つのモデルを考える。
論文参考訳（メタデータ） (2020-03-03T12:14:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。