論文の概要: I3rab: A New Arabic Dependency Treebank Based on Arabic Grammatical
Theory
- arxiv url: http://arxiv.org/abs/2007.05772v1
- Date: Sat, 11 Jul 2020 13:34:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 13:25:58.241812
- Title: I3rab: A New Arabic Dependency Treebank Based on Arabic Grammatical
Theory
- Title(参考訳): I3rab:アラビア語文法理論に基づく新しいアラビア語依存ツリーバンク
- Authors: Dana Halabi, Ebaa Fayyoumi, Arafat Awajan
- Abstract要約: 本稿では,従来のアラビア語文法理論とアラビア語の特徴に基づいて,新たなアラビア語依存ツリーバンクを構築することを目的とする。
提案されたアラビア語依存ツリーバンクはI3rabと呼ばれ、2つの主要な概念で既存のアラビア語依存ツリーバンクとは対照的である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Treebanks are valuable linguistic resources that include the syntactic
structure of a language sentence in addition to POS-tags and morphological
features. They are mainly utilized in modeling statistical parsers. Although
the statistical natural language parser has recently become more accurate for
languages such as English, those for the Arabic language still have low
accuracy. The purpose of this paper is to construct a new Arabic dependency
treebank based on the traditional Arabic grammatical theory and the
characteristics of the Arabic language, to investigate their effects on the
accuracy of statistical parsers. The proposed Arabic dependency treebank,
called I3rab, contrasts with existing Arabic dependency treebanks in two main
concepts. The first concept is the approach of determining the main word of the
sentence, and the second concept is the representation of the joined and covert
pronouns. To evaluate I3rab, we compared its performance against a subset of
Prague Arabic Dependency Treebank that shares a comparable level of details.
The conducted experiments show that the percentage improvement reached up to
7.5% in UAS and 18.8% in LAS.
- Abstract(参考訳): 木バンクは、POSタグや形態的特徴に加えて、言語文の構文構造を含む貴重な言語資源である。
主に統計解析器のモデル化に利用される。
統計的自然言語パーサーは、最近英語のような言語ではより正確になったが、アラビア語のパーサーは依然として精度が低い。
本研究の目的は,従来のアラビア語の文法理論とアラビア語の特徴に基づいて,新しいアラビア語依存木バンクを構築し,統計解析器の精度に与える影響を検討することである。
i3rabと呼ばれるアラビア語の依存関係ツリーバンクは、既存のアラビア語依存ツリーバンクとは2つの主要な概念で対照的である。
第一の概念は文の主語を決定するアプローチであり、第二の概念は結合代名詞と被覆代名詞の表現である。
I3rabを評価するために、我々はそのパフォーマンスをプラハのアラビア語依存ツリーバンクのサブセットと比較した。
実験の結果、uasでは7.5%、lasでは18.8%に向上した。
関連論文リスト
- Enhancing Semantic Similarity Understanding in Arabic NLP with Nested Embedding Learning [0.6752538702870792]
この研究は、Matryoshka Embedding Learningを通じてアラビア語の入れ子埋め込みモデルをトレーニングするための新しいフレームワークを提示している。
我々の革新的な貢献には、様々な文類似性データセットをアラビア語に翻訳することが含まれる。
アラビア自然言語推論三重項データセットの埋め込みモデルを訓練し、その性能を評価した。
論文 参考訳(メタデータ) (2024-07-30T19:03:03Z) - Bilingual Adaptation of Monolingual Foundation Models [48.859227944759986]
単言語大言語モデル(LLM)を他の言語に適応させる効率的な手法を提案する。
2段階のアプローチは、語彙を拡張し、埋め込み行列のみをトレーニングすることから始まります。
アラビア語と英語のコーパスを混ぜて継続的に事前訓練することで、このモデルは英語の習熟度を維持しつつ、アラビア語の能力を獲得している。
論文 参考訳(メタデータ) (2024-07-13T21:09:38Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - Syntactic Language Change in English and German: Metrics, Parsers, and Convergences [56.47832275431858]
本論文は,過去160年間の議会討論のコーパスを用いて,英語とドイツ語の統語的言語変化のダイアクロニックな傾向を考察する。
私たちは、広く使われているStanford Coreと、新しい4つの選択肢を含む5つの依存関係をベースとしています。
文長分布の尾部では,構文的尺度の変化が頻繁であることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-18T11:46:16Z) - ALDi: Quantifying the Arabic Level of Dialectness of Text [17.37857915257019]
我々は、アラビア語話者が方言のスペクトルを知覚し、文レベルでアラビア方言レベル(ALDi)として機能すると主張している。
AOC-ALDiの詳細な分析を行い、訓練したモデルが他のコーパスの方言のレベルを効果的に識別できることを示す。
論文 参考訳(メタデータ) (2023-10-20T18:07:39Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Graphemic Normalization of the Perso-Arabic Script [47.429213930688086]
本稿では,ペルソ・アラビア語が最良文書言語を超えて提示する課題について述べる。
自然言語処理(NLP)の状況に注目する。
ペルソ・アラビア文字ディアスポラの多言語語族8言語に対する正規化が機械翻訳および統計言語モデリングタスクに及ぼす影響を評価する。
論文 参考訳(メタデータ) (2022-10-21T21:59:44Z) - Interpreting Arabic Transformer Models [18.98681439078424]
我々は、アラビア語の様々な種類に基づいて訓練された、アラビア語の事前訓練されたモデルにおいて、言語情報がどのように符号化されているかを探る。
MSA(現代の標準アラビア語)に基づく2つの形態的タグ付けタスクと、方言のPOSタグ付けタスクと、方言の識別タスクである。
論文 参考訳(メタデータ) (2022-01-19T06:32:25Z) - Sentiment Analysis in Poems in Misurata Sub-dialect -- A Sentiment
Detection in an Arabic Sub-dialect [0.0]
この研究は、リビアで話されているミシュラタ・アラビア語サブ方言で書かれた詩の感情を検出することに焦点を当てた。
データセットから感情を検出するために使用されるツールは、SklearnとMazajak sentiment tool 1.1である。
論文 参考訳(メタデータ) (2021-09-15T10:42:39Z) - Effect of Word Embedding Variable Parameters on Arabic Sentiment
Analysis Performance [0.0]
Twitter、Facebookなどのソーシャルメディア。
ユーザーの意見を含むコメントの数が増加しています。
本研究は,アラビア語感情分析のための3つのパラメータ(ウィンドウサイズ,ベクトル次元,負サンプル)について考察する。
4つのバイナリ分類器(ロジスティック回帰、決定木、サポートベクターマシン、ネイブベイ)を使用して感情を検出する。
論文 参考訳(メタデータ) (2021-01-08T08:31:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。