論文の概要: Lemmatization as a Classification Task: Results from Arabic across Multiple Genres
- arxiv url: http://arxiv.org/abs/2506.18399v1
- Date: Mon, 23 Jun 2025 08:34:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.910738
- Title: Lemmatization as a Classification Task: Results from Arabic across Multiple Genres
- Title(参考訳): 分類課題としてのLemmatization:複数遺伝子にわたるアラビア語による結果
- Authors: Mostafa Saeed, Nizar Habash,
- Abstract要約: アラビア語のような曖昧な正書法を持つ形態学的に豊かな言語におけるNLPタスクには、レマタイゼーションが不可欠である。
本稿では,Lemma-POS-Gloss (LPG) タグセットの分類として,補題化を枠組み化する2つの新しい手法を提案する。
また、既存のデータセットと共に標準化された様々なジャンルをカバーする新しいアラビア語の補題化テストセットも提示する。
- 参考スコア(独自算出の注目度): 9.896789483253189
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Lemmatization is crucial for NLP tasks in morphologically rich languages with ambiguous orthography like Arabic, but existing tools face challenges due to inconsistent standards and limited genre coverage. This paper introduces two novel approaches that frame lemmatization as classification into a Lemma-POS-Gloss (LPG) tagset, leveraging machine translation and semantic clustering. We also present a new Arabic lemmatization test set covering diverse genres, standardized alongside existing datasets. We evaluate character level sequence-to-sequence models, which perform competitively and offer complementary value, but are limited to lemma prediction (not LPG) and prone to hallucinating implausible forms. Our results show that classification and clustering yield more robust, interpretable outputs, setting new benchmarks for Arabic lemmatization.
- Abstract(参考訳): アラビア語のような曖昧な正書法を持つ形態学的にリッチな言語におけるNLPタスクには、レマティゼーションが不可欠であるが、既存のツールは、一貫性のない標準と限られたジャンルのカバーのために、課題に直面している。
本稿では,Lemma-POS-Gloss (LPG) タグセットの分類として,機械翻訳とセマンティッククラスタリングを活用する2つの新しい手法を提案する。
また、既存のデータセットと共に標準化された様々なジャンルをカバーする新しいアラビア語の補題化テストセットも提示する。
我々は、競合的に機能し、相補的な価値を提供するが、レムマ予測(LPGではない)に制限される文字レベルのシーケンス・ツー・シーケンスモデルを評価し、不明瞭な形式を幻覚させる傾向がある。
その結果,分類とクラスタリングにより,より堅牢で解釈可能な出力が得られ,アラビア語の補題化のための新しいベンチマークが設定された。
関連論文リスト
- Split Matching for Inductive Zero-shot Semantic Segmentation [52.90218623214213]
Zero-shot Semantic (ZSS)は、トレーニング中にアノテートされていないカテゴリをセグメントすることを目的としている。
ハンガリーのマッチングを2つのコンポーネントに分離する新しい割当て戦略であるSplit Matching (SM)を提案する。
SMは、インダクティブZSS設定の下で最初に分離されたハンガリー語マッチングを導入し、2つの標準ベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-05-08T07:56:30Z) - Refining Sentence Embedding Model through Ranking Sentences Generation with Large Language Models [60.00178316095646]
多くのNLPタスクには文の埋め込みが不可欠であり、NLIのようなデータセットを使用して強いパフォーマンスを達成する対照的な学習方法がある。
近年の研究では、大きな言語モデル(LLM)を利用して文ペアを生成し、アノテーション依存を減らしている。
本稿では,潜在空間におけるLLMの生成方向を制御する手法を提案する。
複数のベンチマークによる実験により,本手法は文合成に要するコストを最小限に抑えつつ,新たなSOTA性能を実現することを示した。
論文 参考訳(メタデータ) (2025-02-19T12:07:53Z) - Leveraging Transformer-Based Models for Predicting Inflection Classes of Words in an Endangered Sami Language [1.788784870849724]
本論文では,Skolt Samiの語彙的特徴と形態的特徴を分類するために,トランスフォーマーモデルを用いた学習手法を提案する。
この研究の背後にある動機は、スコルト・サーミのような少数言語のための言語保存と再生活動を支援することである。
本モデルでは,POS分類では平均重み付きF1スコアが1.00であり,屈折分類では0.81である。
論文 参考訳(メタデータ) (2024-11-04T19:41:16Z) - Dual-level Adaptive Self-Labeling for Novel Class Discovery in Point Cloud Segmentation [15.000460515557211]
そこで我々は,点雲セグメンテーションにおける新しいクラス発見に挑戦し,見受けられるクラスの意味的知識に基づいて,新しいクラスを発見する。
既存の研究は、解の退化を避けるために、新しいクラスに等しいクラスサイズの制約を単純化したオンラインポイントワイズクラスタリング手法を提案する。
本研究では,モデル学習中に不均衡なクラスに対して,高品質な擬似ラベルを適応的に生成する新たな自己ラベル方式を提案する。
論文 参考訳(メタデータ) (2024-07-17T11:14:46Z) - DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。
これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。
標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文 参考訳(メタデータ) (2024-03-16T20:18:36Z) - IDoFew: Intermediate Training Using Dual-Clustering in Language Models
for Few Labels Text Classification [24.11420537250414]
変換器からの双方向表現(BERT)は、自然言語処理(NLP)やテキスト分類を含むテキストマイニングタスクにおいて非常に効果的である。
いくつかのタスクは、制限付きラベル付きテキスト分類など、これらのモデルに依然として課題を生じさせる。
擬似ラベルを確実にモデル化する2段階の中間クラスタリングを開発した。
論文 参考訳(メタデータ) (2024-01-08T17:07:37Z) - A Multi-level Supervised Contrastive Learning Framework for Low-Resource
Natural Language Inference [54.678516076366506]
自然言語推論(NLI)は、自然言語理解において、ますます重要な課題である。
本稿では,低リソースな自然言語推論のためのマルチSCLという,マルチレベルの教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-31T05:54:18Z) - Comparative Error Analysis in Neural and Finite-state Models for
Unsupervised Character-level Transduction [34.1177259741046]
2つのモデルクラスを並べて比較すると、同等のパフォーマンスを達成したとしても、異なるタイプのエラーが発生する傾向があります。
復号時における有限状態とシーケンス・ツー・シーケンスの組合せが、出力を定量的かつ質的にどう影響するかを考察する。
論文 参考訳(メタデータ) (2021-06-24T00:09:24Z) - Detecting Fine-Grained Cross-Lingual Semantic Divergences without
Supervision by Learning to Rank [28.910206570036593]
この研究は、細粒度のセマンティックな違いの予測とアノテーションを改善する。
本稿では,多言語BERTモデルの学習方法として,様々な粒度の合成発散例をランク付けする手法を提案する。
ランク付けの学習は、強い文レベルの類似性モデルよりも正確に、きめ細かい文レベルの発散を検出するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T21:26:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。