論文の概要: Urdu Dependency Parsing and Treebank Development: A Syntactic and Morphological Perspective
- arxiv url: http://arxiv.org/abs/2406.09549v2
- Date: Wed, 02 Oct 2024 11:44:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-03 15:18:13.050595
- Title: Urdu Dependency Parsing and Treebank Development: A Syntactic and Morphological Perspective
- Title(参考訳): Urdu Dependency ParsingとTreebank開発 : 統語的・形態論的視点
- Authors: Nudrat Habib,
- Abstract要約: 依存関係解析を用いて、ウルドゥー語でニュース記事を分析する。
最良ラベル付き精度(LA)は70%,未ラベル付きアタッチメントスコア(UAS)は84%であった。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Parsing is the process of analyzing a sentence's syntactic structure by breaking it down into its grammatical components. and is critical for various linguistic applications. Urdu is a low-resource, free word-order language and exhibits complex morphology. Literature suggests that dependency parsing is well-suited for such languages. Our approach begins with a basic feature model encompassing word location, head word identification, and dependency relations, followed by a more advanced model integrating part-of-speech (POS) tags and morphological attributes (e.g., suffixes, gender). We manually annotated a corpus of news articles of varying complexity. Using Maltparser and the NivreEager algorithm, we achieved a best-labeled accuracy (LA) of 70% and an unlabeled attachment score (UAS) of 84%, demonstrating the feasibility of dependency parsing for Urdu.
- Abstract(参考訳): パーシング(英: Parsing)とは、文を文法的な構成要素に分解することで、文の構文構造を分析する過程である。
様々な言語応用に欠かせないものです
ウルドゥー語は低リソースで自由な語順言語であり、複雑な形態を示す。
文献によると、依存関係解析はそのような言語に適している。
提案手法は, 単語の位置, 単語の識別, 依存関係を含む基本的特徴モデルから始まり, 音声(POS) タグと形態的属性(例えば, 接尾辞, 性別)を組み込んだ, より高度なモデルである。
我々は様々な複雑さのニュース記事のコーパスを手動で注釈付けした。
Maltparser と NivreEager アルゴリズムを用いて,最高のラベル付き精度 (LA) を70%,未ラベル付きアタッチメントスコア (UAS) を84%達成し,Urdu の依存性解析の可能性を示した。
関連論文リスト
- Syntactic Language Change in English and German: Metrics, Parsers, and Convergences [56.47832275431858]
本論文は,過去160年間の議会討論のコーパスを用いて,英語とドイツ語の統語的言語変化のダイアクロニックな傾向を考察する。
私たちは、広く使われているStanford Coreと、新しい4つの選択肢を含む5つの依存関係をベースとしています。
文長分布の尾部では,構文的尺度の変化が頻繁であることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-18T11:46:16Z) - On The Ingredients of an Effective Zero-shot Semantic Parser [95.01623036661468]
我々は、標準発話とプログラムの訓練例を文法から言い換えて、ゼロショット学習を分析する。
改良された文法,より強力なパラフレーズ,効率的な学習手法を用いて,これらのギャップを埋めることを提案する。
我々のモデルはラベル付きデータゼロの2つの意味解析ベンチマーク(Scholar, Geo)で高い性能を達成する。
論文 参考訳(メタデータ) (2021-10-15T21:41:16Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - ABCD: A Graph Framework to Convert Complex Sentences to a Covering Set
of Simple Sentences [7.639576741566091]
本稿では,各複雑な文を,ソースのテンション付き節から派生した単純な文に分解するタスクを提案する。
私たちのニューラルモデルは、単語の隣接性と文法的依存関係を組み合わせたグラフのアクセプション、ブレーク、コピー、ドロップの各要素を学びます。
複雑な文分解の訓練と評価を目的とした新しいデータセットであるDeSSEを紹介する。
論文 参考訳(メタデータ) (2021-06-22T19:31:28Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - A Practical Chinese Dependency Parser Based on A Large-scale Dataset [21.359679124869402]
依存性解析は長年にわたる自然言語処理タスクであり、アウトプットはさまざまな下流タスクに不可欠である。
近年、ニューラルネットワークベースの(NNベースの)依存性は大きな進歩を遂げ、最先端の結果を得た。
NNベースのアプローチには大量のラベル付きトレーニングデータが必要です。
論文 参考訳(メタデータ) (2020-09-02T08:41:46Z) - Machine learning approach of Japanese composition scoring and writing
aided system's design [0.0]
合成スコアシステムは、言語学習者を支援することができる。
何かを出力するプロセスにおいて、言語をリーン化するのです。
特に外国語学習者にとって、語彙内容と構文内容は、通常、彼らがより関心を持っているものである。
論文 参考訳(メタデータ) (2020-08-26T11:01:13Z) - How to Probe Sentence Embeddings in Low-Resource Languages: On
Structural Design Choices for Probing Task Evaluation [82.96358326053115]
構造設計選択に対する探索作業結果の感度について検討する。
我々は、英語で識別する「安定な領域」にある設計選択を多言語で構成した埋め込みを探索する。
私たちは英語の結果が他の言語に移行しないことに気付きます。
論文 参考訳(メタデータ) (2020-06-16T12:37:50Z) - A Tale of a Probe and a Parser [74.14046092181947]
言語のニューラルモデルにエンコードされている言語情報の計測は、NLPで人気が高まっている。
研究者は、他のモデルの出力から言語構造を抽出するために設計された教師付きモデル"プローブ"をトレーニングすることで、この企業にアプローチする。
そのようなプローブの1つは、構文情報が文脈化された単語表現でエンコードされる範囲を定量化するために設計された構造プローブである。
論文 参考訳(メタデータ) (2020-05-04T16:57:31Z) - SPARQA: Skeleton-based Semantic Parsing for Complex Questions over
Knowledge Bases [27.343078784035693]
本稿では,複雑な質問の高次構造を表現するために,新しいスケルトン文法を提案する。
BERTをベースとしたパースアルゴリズムを用いたこの厳密な形式化は、下流の微細なセマンティック解析の精度を向上させるのに役立つ。
このアプローチは、いくつかのデータセットで有望なパフォーマンスを示す。
論文 参考訳(メタデータ) (2020-03-31T05:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。