Fugu-MT 論文翻訳(概要): GliLem: Leveraging GliNER for Contextualized Lemmatization in Estonian

論文の概要: GliLem: Leveraging GliNER for Contextualized Lemmatization in Estonian

arxiv url: http://arxiv.org/abs/2412.20597v2
Date: Sun, 05 Jan 2025 18:33:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-07 14:41:40.895664
Title: GliLem: Leveraging GliNER for Contextualized Lemmatization in Estonian
Title（参考訳）: GliLem: エストニアにおけるコンテクスト化のLemmatizationにGliNERを活用する
Authors: Aleksei Dorkin, Kairit Sirts,
Abstract要約: GliLemはエストニア人のための新しいハイブリッド補題システムである。本稿では,事前学習したGliNERモデルの柔軟性を活用し,Vabamorfの補間精度を向上させる。
参考スコア（独自算出の注目度）: 0.21485350418225246
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present GliLem -- a novel hybrid lemmatization system for Estonian that enhances the highly accurate rule-based morphological analyzer Vabamorf with an external disambiguation module based on GliNER -- an open vocabulary NER model that is able to match text spans with text labels in natural language. We leverage the flexibility of a pre-trained GliNER model to improve the lemmatization accuracy of Vabamorf by 10% compared to its original disambiguation module and achieve an improvement over the token classification-based baseline. To measure the impact of improvements in lemmatization accuracy on the information retrieval downstream task, we first created an information retrieval dataset for Estonian by automatically translating the DBpedia-Entity dataset from English. We benchmark several token normalization approaches, including lemmatization, on the created dataset using the BM25 algorithm. We observe a substantial improvement in IR metrics when using lemmatization over simplistic stemming. The benefits of improving lemma disambiguation accuracy manifest in small but consistent improvement in the IR recall measure, especially in the setting of high k.
Abstract（参考訳）: 本稿では,GliNERをベースとした外部曖昧化モジュールを備えた,厳密な規則に基づく形態解析システムであるVabamorfをエストニア語に導入したGliLemと,自然言語のテキストラベルとテキストスパンをマッチング可能なオープン語彙NERモデルを提案する。本稿では,事前学習したGliNERモデルの柔軟性を活用し,Vabamorfの補間精度を従来の曖昧なモジュールに比べて10%向上させ,トークン分類ベースラインを改良する。そこで我々はまず,DBpedia-Entityデータセットを英語から自動翻訳することで,エストニア語における情報検索データセットを作成した。我々は、BM25アルゴリズムを用いて生成されたデータセット上で、補題化を含むいくつかのトークン正規化アプローチをベンチマークする。単純造形法よりも補綴法を用いる場合,IR測定値の大幅な改善が観察された。レンマ不明瞭度の改善の利点は、特に高K値の設定において、小さなが一貫したIRリコール尺度の改善に現れる。

関連論文リスト

Refining Sentence Embedding Model through Ranking Sentences Generation with Large Language Models [60.00178316095646]
多くのNLPタスクには文の埋め込みが不可欠であり、NLIのようなデータセットを使用して強いパフォーマンスを達成する対照的な学習方法がある。近年の研究では、大きな言語モデル(LLM)を利用して文ペアを生成し、アノテーション依存を減らしている。本稿では,潜在空間におけるLLMの生成方向を制御する手法を提案する。複数のベンチマークによる実験により,本手法は文合成に要するコストを最小限に抑えつつ,新たなSOTA性能を実現することを示した。
論文参考訳（メタデータ） (2025-02-19T12:07:53Z)
LM-assisted keyword biasing with Aho-Corasick algorithm for Transducer-based ASR [3.841280537264271]
そこで本研究では,音声認識性能向上のためのライトオンザフライ方式を提案する。我々は、名前付きエンティティのバイアスリストと単語レベルのn-gram言語モデルと、Aho-Corasick文字列マッチングアルゴリズムに基づく浅い融合アプローチを組み合わせる。逆実時間係数の実用的差のない一般単語誤り率の21.6%の相対的な改善を実現した。
論文参考訳（メタデータ） (2024-09-20T13:53:37Z)
RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文参考訳（メタデータ） (2023-10-16T16:42:01Z)
Non-parametric, Nearest-neighbor-assisted Fine-tuning for Neural Machine Translation [22.59222643493867]
非パラメトリック k-nearest-neighborアルゴリズムは、最近、言語モデルや機械翻訳デコーダなどの生成モデルを支援するために普及している。このような非パラメトリックモデルが、kNN予測の統計を取り入れることで、微調整段階における機械翻訳モデルを改善することができるかどうかを考察する。
論文参考訳（メタデータ） (2023-05-23T03:44:06Z)
Robust Acoustic and Semantic Contextual Biasing in Neural Transducers for Speech Recognition [14.744220870243932]
そこで本稿では,文脈バイアスを改善するために,軽量な文字表現を用いて微粒な発音特徴を符号化することを提案する。さらに、事前学習されたニューラルネットワークモデル(NLM)をベースとしたエンコーダを統合し、発話の意味的文脈を符号化する。 Librispeechデータセット上のConformer Transducerモデルを用いた実験では、異なるバイアスリストサイズに対するWERの相対的な改善が4.62%から9.26%である。
論文参考訳（メタデータ） (2023-05-09T08:51:44Z)
Towards preserving word order importance through Forced Invalidation [80.33036864442182]
事前学習された言語モデルは単語の順序に敏感であることを示す。我々は,単語順序の重要性を維持するために強制的無効化を提案する。実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-04-11T13:42:10Z)
Non-Parametric Domain Adaptation for End-to-End Speech Translation [72.37869362559212]
E2E-ST(End-to-End Speech Translation)は、エラー伝播の低減、レイテンシの低減、パラメータの削減などにより注目されている。本稿では,E2E-STシステムのドメイン適応を実現するために,ドメイン固有のテキスト翻訳コーパスを活用する新しい非パラメトリック手法を提案する。
論文参考訳（メタデータ） (2022-05-23T11:41:02Z)
DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文参考訳（メタデータ） (2021-11-14T17:28:09Z)
Enhancing Sequence-to-Sequence Neural Lemmatization with External Resources [0.6726255259929496]
本稿では,外部レキシコンやルールベースシステムから抽出した補題を付加することで,セック2セックニューラルモデルを強化した新しい補題化手法を提案する。トレーニング中、強化されたレムマタイザは、シーケンシャルデコーダを介してレムマを生成することと、実行中に供給された外部候補からのレムマ文字をコピーすることの両方を学ぶ。 Apertium morphological analysisrから抽出した候補で強化された補間器は,追加の補間情報を利用していないベースラインモデルと比較して統計的に有意な改善が得られた。
論文参考訳（メタデータ） (2021-01-28T15:14:20Z)
SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文参考訳（メタデータ） (2021-01-02T01:15:57Z)
Hybrid Attention-Based Transformer Block Model for Distant Supervision Relation Extraction [20.644215991166902]
DSREタスクを実行するために,マルチインスタンス学習を用いたハイブリッドアテンションベースのトランスフォーマーブロックを用いた新しいフレームワークを提案する。提案手法は評価データセットの最先端アルゴリズムより優れている。
論文参考訳（メタデータ） (2020-03-10T13:05:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。