論文の概要: Building Odia Shallow Parser
- arxiv url: http://arxiv.org/abs/2204.08960v1
- Date: Tue, 19 Apr 2022 15:58:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-20 14:41:30.617835
- Title: Building Odia Shallow Parser
- Title(参考訳): Odia Shallow Parser の構築
- Authors: Pruthwik Mishra and Dipti Misra Sharma
- Abstract要約: 多くのインドの言語は、コーパスの一般提供に関して資源が乏しい。
本論文は,浅瀬における品質アノテートコーパスの作成の試みである。
本論文の貢献は,オディアにおけるポスとチャンクコーパスの作成と,オディアにおけるポスタグとチャンクのためのベースラインシステムの開発である。
- 参考スコア(独自算出の注目度): 9.772106698388138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Shallow parsing is an essential task for many NLP applications like machine
translation, summarization, sentiment analysis, aspect identification and many
more. Quality annotated corpora is critical for building accurate shallow
parsers. Many Indian languages are resource poor with respect to the
availability of corpora in general. So, this paper is an attempt towards
creating quality corpora for shallow parsers. The contribution of this paper is
two folds: creation pos and chunk annotated corpora for Odia and development of
baseline systems for pos tagging and chunking in Odia.
- Abstract(参考訳): 浅い解析は、機械翻訳、要約、感情分析、アスペクト識別など多くのnlpアプリケーションにとって不可欠なタスクである。
品質アノテートコーパスは、正確な浅いパーサーを構築するために重要である。
多くのインドの言語は、コーパスの一般提供に関して資源が乏しい。
そこで本稿は,浅いパーサのための品質コーパスを作成する試みである。
本論文の貢献は,odiaのためのposとchunk annotated corporaの作成と,odiaにおけるposタグとチャンキングのためのベースラインシステムの開発の2つである。
関連論文リスト
- Urdu Dependency Parsing and Treebank Development: A Syntactic and Morphological Perspective [0.0]
依存関係解析を用いて、ウルドゥー語でニュース記事を分析する。
最良ラベル付き精度(LA)は70%,未ラベル付きアタッチメントスコア(UAS)は84%であった。
論文 参考訳(メタデータ) (2024-06-13T19:30:32Z) - What's In My Big Data? [67.04525616289949]
大規模なテキストコーパスの内容を明らかにするためのプラットフォームと16の分析セットであるWIMBD(What's In My Big Data?)を提案する。
WIMBDは2つの基本的な機能 – カウントとサーチ – を大規模に構築することで,標準的な計算ノード上で35テラバイト以上を解析することが可能になります。
これらのコーパスについて, 重複, 合成, 品質の低下など, 意外かつ未発表の発見がいくつか見出された。
論文 参考訳(メタデータ) (2023-10-31T17:59:38Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Discourse Centric Evaluation of Machine Translation with a Densely
Annotated Parallel Corpus [82.07304301996562]
本稿では,江らが導入した大規模並列コーパスBWBに基づいて,リッチな談話アノテーションを用いた新しいデータセットを提案する。
ソース言語とターゲット言語の談話構造と類似点と相違点について検討する。
我々はMT出力が人間の翻訳と基本的に異なることを発見した。
論文 参考訳(メタデータ) (2023-05-18T17:36:41Z) - Universal Dependency Treebank for Odia Language [0.24466725954625887]
本稿では,形態学的に豊かな低資源のインド語であるオディア(Odia)の公用ツリーバンクについて紹介する。
ツリーバンクには、インド語で最大の並列コーパスコレクションである「サマンタル」から選ばれたオディアに約1082のトークン(100文)が含まれている。
オディア・ツリーバンクの形態解析は機械学習を用いて行った。
論文 参考訳(メタデータ) (2022-05-24T11:19:26Z) - Survey of Aspect-based Sentiment Analysis Datasets [55.61047894397937]
アスペクトベースの感情分析(ABSA)は、ユーザ生成レビューの分析を必要とする自然言語処理の問題である。
ABSAの多くの散在したコーパスは、研究者が特定のABSAサブタスクに適したコーパスを素早く特定することを困難にしている。
本研究では,自律型ABSAシステムの学習・評価に使用できるコーパスデータベースを提案する。
論文 参考訳(メタデータ) (2022-04-11T16:23:36Z) - Whose Language Counts as High Quality? Measuring Language Ideologies in
Text Data Selection [83.3580786484122]
より富裕で、教育され、都会のZIPコードにある大きな学校の新聞は、質の高いものとして分類される傾向にある。
高品質なコーパスを特権化するには言語イデオロギーが必要です。
論文 参考訳(メタデータ) (2022-01-25T17:20:04Z) - A Survey of Unsupervised Dependency Parsing [62.16714720135358]
教師なしの依存関係解析は、正しいパースツリーのアノテーションを持たない文から依存関係を学ぶことを目的としている。
その困難さにもかかわらず、教師なしの構文解析は、ほとんど無制限に注釈のないテキストデータを利用することができるため、興味深い研究方向である。
論文 参考訳(メタデータ) (2020-10-04T10:51:22Z) - AMALGUM -- A Free, Balanced, Multilayer English Web Corpus [14.073494095236027]
ジャンルバランスの取れたウェブコーパスを4Mトークンで提示する。
オープンなオンラインデータソースをタップすることで、コーパスはより小さく手作業で作成した注釈付きデータセットに代わる、より大きな代替手段を提供する。
論文 参考訳(メタデータ) (2020-06-18T17:05:45Z) - Know thy corpus! Robust methods for digital curation of Web corpora [0.0]
本稿では,Webコーパスのデジタルキュレーションのための新しいフレームワークを提案する。
これはそれらの構成や語彙などのパラメータを頑健に推定する。
論文 参考訳(メタデータ) (2020-03-13T17:21:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。