論文の概要: Exploring Syntactic Patterns in Urdu: A Deep Dive into Dependency Analysis
- arxiv url: http://arxiv.org/abs/2406.09549v1
- Date: Thu, 13 Jun 2024 19:30:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 17:24:36.174465
- Title: Exploring Syntactic Patterns in Urdu: A Deep Dive into Dependency Analysis
- Title(参考訳): Urduにおける構文パターンの探索 - 依存性分析の深み
- Authors: Nudrat Habib,
- Abstract要約: 依存性解析のアプローチは、Urduのような秩序のない言語に適している。
依存タグセットは、ウルドゥー語の複雑な形態構造を慎重に考慮した設計である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parsing is the process of breaking a sentence into its grammatical components and identifying the syntactic structure of the sentence. The syntactically correct sentence structure is achieved by assigning grammatical labels to its constituents using lexicon and syntactic rules. In linguistics, parser is extremely useful due to the number of different applications like name entity recognition, QA systems and information extraction, etc. The two most common techniques used for parsing are phrase structure and dependency Structure. Because Urdu is a low-resource language, there has been little progress in building an Urdu parser. A comparison of several parsers revealed that the dependency parsing approach is better suited for order-free languages such as Urdu. We have made significant progress in parsing Urdu, a South Asian language with a complex morphology. For Urdu dependency parsing, a basic feature model consisting of word location, word head, and dependency relation is employed as a starting point, followed by more complex feature models. The dependency tagset is designed after careful consideration of the complex morphological structure of the Urdu language, word order variation, and lexical ambiguity and it contains 22 tags. Our dataset comprises of sentences from news articles, and we tried to include sentences of different complexity (which is quite challenging), to get reliable results. All experiments are performed using MaltParser, exploring all 9 algorithms and classifiers. We have achieved a 70 percent overall best-labeled accuracy (LA), as well as an 84 percent overall best-unlabeled attachment score (UAS) using the Nivreeager algorithm. The comparison of output data with treebank test data that has been manually parsed is then used to carry out error assessment and to identify the errors produced by the parser.
- Abstract(参考訳): パーシング(英: Parsing)とは、文を文法的な構成要素に分解し、文の構文構造を特定する過程である。
語彙規則および構文規則を用いて文法ラベルをその構成成分に割り当てることにより、構文的に正しい文構造を実現する。
言語学において、パーサーは、名前エンティティ認識、QAシステム、情報抽出など、さまざまなアプリケーションが多いため、非常に有用である。
パースに使われる2つの一般的なテクニックは、フレーズ構造と依存性構造である。
Urduは低リソース言語であるため、Urduパーサの構築にはほとんど進展がなかった。
いくつかのパーサを比較すると、依存関係解析アプローチはUrduのような注文なし言語に適していることがわかった。
我々は複雑な形態を持つ南アジアの言語であるウルドゥー語を解析する上で大きな進歩を遂げた。
Urduの依存性解析では、単語の位置、ワードヘッド、依存関係からなる基本的な特徴モデルが出発点として使われ、さらに複雑な特徴モデルが続く。
依存関係タグセットは、ウルドゥー語の複雑な形態構造、単語順の変化、語彙のあいまいさを慎重に考慮し、22のタグを含むように設計されている。
我々のデータセットはニュース記事からの文で構成されており、信頼性の高い結果を得るために、異なる複雑さ(非常に難しい)の文を含めようとしました。
すべての実験はMaltParserを使って行われ、9つのアルゴリズムと分類器を探索する。
我々は、Nivreeagerアルゴリズムを用いて、全体の70%のベストラベル付き精度(LA)と、全体の84%のベストラベル付きアタッチメントスコア(UAS)を達成した。
次に、手動で解析したツリーバンクテストデータと出力データの比較を行い、エラー評価を行い、パーサが生成したエラーを特定する。
関連論文リスト
- Integrating Supertag Features into Neural Discontinuous Constituent Parsing [0.0]
伝統的な選挙区の見解では、構成要素は隣接した単語で構成されており、ドイツ語のような言語で一般的である。
トランジションベースの構文解析は、大きな注釈付きコーパス上で教師あり学習を用いて生のテキストを入力した木を生成する。
論文 参考訳(メタデータ) (2024-10-11T12:28:26Z) - CSSL: Contrastive Self-Supervised Learning for Dependency Parsing on Relatively Free Word Ordered and Morphologically Rich Low Resource Languages [10.441585970299547]
本稿では,単語順の変動に頑健なモデルを実現するための,対照的な自己教師型学習手法を提案する。
提案手法は、7つの比較的自由な単語順序言語における3.03/2.95点の平均的な増加を示す。
論文 参考訳(メタデータ) (2024-10-09T14:38:49Z) - Syntactic Language Change in English and German: Metrics, Parsers, and Convergences [56.47832275431858]
本論文は,過去160年間の議会討論のコーパスを用いて,英語とドイツ語の統語的言語変化のダイアクロニックな傾向を考察する。
私たちは、広く使われているStanford Coreと、新しい4つの選択肢を含む5つの依存関係をベースとしています。
文長分布の尾部では,構文的尺度の変化が頻繁であることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-18T11:46:16Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z) - On The Ingredients of an Effective Zero-shot Semantic Parser [95.01623036661468]
我々は、標準発話とプログラムの訓練例を文法から言い換えて、ゼロショット学習を分析する。
改良された文法,より強力なパラフレーズ,効率的な学習手法を用いて,これらのギャップを埋めることを提案する。
我々のモデルはラベル付きデータゼロの2つの意味解析ベンチマーク(Scholar, Geo)で高い性能を達成する。
論文 参考訳(メタデータ) (2021-10-15T21:41:16Z) - Constrained Language Models Yield Few-Shot Semantic Parsers [73.50960967598654]
我々は,事前学習された大規模言語モデルの利用を,少ない意味論として検討する。
意味構文解析の目標は、自然言語入力によって構造化された意味表現を生成することである。
言語モデルを用いて、入力を英語に似た制御されたサブ言語にパラフレーズし、対象の意味表現に自動的にマッピングする。
論文 参考訳(メタデータ) (2021-04-18T08:13:06Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - A Survey of Syntactic-Semantic Parsing Based on Constituent and
Dependency Structures [14.714725860010724]
我々は、構文解析の最も一般的な2つの形式、すなわち構成解析と依存性解析に焦点を当てている。
本稿では、構成解析と依存性解析の代表モデルと、リッチセマンティクスによる依存性解析について概説する。
論文 参考訳(メタデータ) (2020-06-19T10:21:17Z) - Is POS Tagging Necessary or Even Helpful for Neural Dependency Parsing? [22.93722845643562]
Stackのジョイントフレームワークを使用する場合,POSタグ付けによって解析性能が大幅に向上することを示す。
解析木よりもPOSタグをアノテートする方がずっと安いことを考えると,大規模な異種POSタグデータの利用も検討する。
論文 参考訳(メタデータ) (2020-03-06T13:47:30Z) - A Hybrid Approach to Dependency Parsing: Combining Rules and Morphology
with Deep Learning [0.0]
本稿では,特に訓練データ量に制限のある言語に対して,依存関係解析の2つのアプローチを提案する。
第1のアプローチは、最先端のディープラーニングとルールベースのアプローチを組み合わせ、第2のアプローチは、形態情報をネットワークに組み込む。
提案手法はトルコ語向けに開発されたが、他の言語にも適用可能である。
論文 参考訳(メタデータ) (2020-02-24T08:34:33Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。