論文の概要: Universal Dependency Treebank for Odia Language
- arxiv url: http://arxiv.org/abs/2205.11976v1
- Date: Tue, 24 May 2022 11:19:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 01:13:48.887891
- Title: Universal Dependency Treebank for Odia Language
- Title(参考訳): オディア言語のためのユニバーサル依存ツリーバンク
- Authors: Shantipriya Parida, Kalyanamalini Sahoo, Atul Kr. Ojha, Saraswati
Sahoo, Satya Ranjan Dash, Bijayalaxmi Dash
- Abstract要約: 本稿では,形態学的に豊かな低資源のインド語であるオディア(Odia)の公用ツリーバンクについて紹介する。
ツリーバンクには、インド語で最大の並列コーパスコレクションである「サマンタル」から選ばれたオディアに約1082のトークン(100文)が含まれている。
オディア・ツリーバンクの形態解析は機械学習を用いて行った。
- 参考スコア(独自算出の注目度): 0.24466725954625887
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper presents the first publicly available treebank of Odia, a
morphologically rich low resource Indian language. The treebank contains
approx. 1082 tokens (100 sentences) in Odia selected from "Samantar", the
largest available parallel corpora collection for Indic languages. All the
selected sentences are manually annotated following the ``Universal Dependency
(UD)" guidelines. The morphological analysis of the Odia treebank was performed
using machine learning techniques. The Odia annotated treebank will enrich the
Odia language resource and will help in building language technology tools for
cross-lingual learning and typological research. We also build a preliminary
Odia parser using a machine learning approach. The accuracy of the parser is
86.6% Tokenization, 64.1% UPOS, 63.78% XPOS, 42.04% UAS and 21.34% LAS.
Finally, the paper briefly discusses the linguistic analysis of the Odia UD
treebank.
- Abstract(参考訳): 本稿では,形態的に豊かな低資源のインド語であるOdiaのツリーバンクを初めて公開する。
ツリーバンクにはアポックスが含まれています。
1082のトークン(100文)は、インド語で最大の並列コーパスコレクションである「サマンタル」から選ばれた。
すべての選択された文は ``Universal Dependency (UD)' ガイドラインに従って手動で注釈付けされる。
オディア・ツリーバンクの形態解析は機械学習を用いて行った。
odia annotated treebankは、odia言語リソースを充実させ、言語横断学習とタイポロジー研究のための言語技術ツールの開発を支援する。
機械学習アプローチを用いた予備的なOdiaパーサも構築する。
パーサーの精度は86.6%のトークン化、64.1%のPOS、63.78%のXPOS、42.04%のUAS、21.34%のLASである。
最後に,オディアUDツリーバンクの言語分析について概説した。
関連論文リスト
- LuxBank: The First Universal Dependency Treebank for Luxembourgish [0.38447712214412116]
ルクセンブルク語(Luxembourgish)は、西ゲルマンの約40万人が話している言語である。
ルクセンブルクにおける最初のユニバーサル依存(UD)ツリーバンクであるLuxBankを紹介する。
論文 参考訳(メタデータ) (2024-11-07T15:50:40Z) - Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。
これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。
標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文 参考訳(メタデータ) (2024-03-16T20:18:36Z) - MaiBaam: A Multi-Dialectal Bavarian Universal Dependency Treebank [56.810282574817414]
We present the first multi-dialect Bavarian treebank (MaiBaam) based with part-of-speech and syntactic dependency information in Universal Dependencies (UD)。
我々は、近縁なバイエルン語とドイツ語のモルフォシンタクティックな相違を強調し、話者の正書法の豊富な多様性を示す。
私たちのコーパスには15kのトークンが含まれており、3つの国にまたがるバイエルン語を話すすべての地域の方言をカバーしています。
論文 参考訳(メタデータ) (2024-03-15T13:33:10Z) - GlobalBench: A Benchmark for Global Progress in Natural Language
Processing [114.24519009839142]
GlobalBenchは、すべての言語におけるすべてのNLPデータセットの進捗を追跡することを目的としている。
話者当たりのユーティリティと、全言語にわたるテクノロジのエクイティをトラックする。
現在、GlobalBenchは190言語で966のデータセットをカバーしており、62言語にまたがる1,128のシステムサブミッションを持っている。
論文 参考訳(メタデータ) (2023-05-24T04:36:32Z) - Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文 参考訳(メタデータ) (2022-10-18T16:47:18Z) - Building an Endangered Language Resource in the Classroom: Universal
Dependencies for Kakataibo [0.8938910048099864]
ペルーで話されているパノア語であるカタイボ語(Kakataibo)という、絶滅危惧言語のための新しいユニバーサル依存ツリーバンクをAmazoniaから立ち上げました。
まず,大学生を対象とした計算言語コースの文脈において,木バンクの作成に有効な協調手法について論じる。
論文 参考訳(メタデータ) (2022-06-21T12:58:56Z) - Developing Universal Dependency Treebanks for Magahi and Braj [0.7349727826230861]
本稿では、マガヒ語とブラージュ語という2つの低リソースのインドの言語のためのツリーバンクの開発について論じる。
マガヒの木バンクには945の文と500の文からなるブラージュの木バンクがあり、その補題、部分音声、形態的特徴、普遍的な依存関係が特徴である。
論文 参考訳(メタデータ) (2022-04-26T23:43:41Z) - Apurin\~a Universal Dependencies Treebank [0.4893345190925178]
本稿では,アプリーナ語における最初のユニバーサル依存ツリーバンクについて論じる。
ツリーバンクには、76の完全注釈文、14のパート・オブ・スペル、および7つの追加または新機能が含まれている。
論文 参考訳(メタデータ) (2021-06-07T07:42:00Z) - The Persian Dependency Treebank Made Universal [3.4410212782758047]
このツリーバンクには29107の文がある。
我々のデータは、ペルシアのユニバーサル依存ツリーバンク(Seraji et al., 2016)よりもユニバーサル依存と互換性がある。
我々のデレシカル化されたペルシア語から英語への移動実験は、データに基づいてトレーニングされた解析モデルは、Serajiらより2%精度が高いことを示している。
論文 参考訳(メタデータ) (2020-09-21T22:34:13Z) - Stanza: A Python Natural Language Processing Toolkit for Many Human
Languages [44.8226642800919]
我々は,オープンソースのPython自然言語処理ツールキットであるStanzaを紹介した。
Stanzaは、トークン化、マルチワードトークン拡張、レムマティゼーション、パート・オブ・音声、形態的特徴タグ付けなど、テキスト分析のための言語に依存しない完全なニューラルネットワークを備えている。
我々は、Universal Dependencies Treebanksや他の多言語コーパスを含む、合計112のデータセットでStanzaをトレーニングしました。
論文 参考訳(メタデータ) (2020-03-16T09:05:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。