論文の概要: Resources for Turkish Dependency Parsing: Introducing the BOUN Treebank
and the BoAT Annotation Tool
- arxiv url: http://arxiv.org/abs/2002.10416v2
- Date: Thu, 16 Sep 2021 09:53:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 03:55:56.018081
- Title: Resources for Turkish Dependency Parsing: Introducing the BOUN Treebank
and the BoAT Annotation Tool
- Title(参考訳): トルコ語依存構文解析のためのリソース:BOUNツリーバンクとBoATアノテーションツールの導入
- Authors: Utku T\"urk (1), Furkan Atmaca (1), \c{S}aziye Bet\"ul \"Ozate\c{s}
(2), G\"ozde Berk (2), Seyyit Talha Bedir (1), Abdullatif K\"oksal (2),
Balk{\i}z \"Ozt\"urk Ba\c{s}aran (1), Tunga G\"ung\"or (2) and Arzucan
\"Ozg\"ur (2) ((1) Department of Linguistics Bo\u{g}azi\c{c}i University, (2)
Department of Computer Engineering Bo\u{g}azi\c{c}i University)
- Abstract要約: トルコの係り受け解析のために開発した資源について紹介し,手作業による注釈付きツリーバンク(BOUN Treebank)について紹介する。
BOUNツリーバンクのアノテーションに関する決定は、Universal Dependencies (UD)フレームワークに従って行われた。
BOUNツリーバンクおよびトルコの他の2つのツリーバンク上で得られた最先端の依存性アノテーションの結果を報告する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce the resources that we developed for Turkish
dependency parsing, which include a novel manually annotated treebank (BOUN
Treebank), along with the guidelines we adopted, and a new annotation tool
(BoAT). The manual annotation process we employed was shaped and implemented by
a team of four linguists and five Natural Language Processing (NLP)
specialists. Decisions regarding the annotation of the BOUN Treebank were made
in line with the Universal Dependencies (UD) framework as well as our recent
efforts for unifying the Turkish UD treebanks through manual re-annotation. To
the best of our knowledge, BOUN Treebank is the largest Turkish treebank. It
contains a total of 9,761 sentences from various topics including biographical
texts, national newspapers, instructional texts, popular culture articles, and
essays. In addition, we report the parsing results of a state-of-the-art
dependency parser obtained over the BOUN Treebank as well as two other
treebanks in Turkish. Our results demonstrate that the unification of the
Turkish annotation scheme and the introduction of a more comprehensive treebank
lead to improved performance with regard to dependency parsing.
- Abstract(参考訳): 本稿では,トルコの係り受け解析のために開発したリソースについて紹介する。その中には,手作業による注釈付きツリーバンク (BOUN Treebank) やガイドライン,新たなアノテーションツール (BoAT) などが含まれる。
手動のアノテーションプロセスは、4人の言語学者と5人の自然言語処理専門家からなるチームによって作成、実装されました。
BOUNツリーバンクのアノテーションに関する決定は、Universal Dependencies(UD)フレームワークと、トルコのUDツリーバンクを手動で再注釈することで統一するための最近の取り組みに沿って行われた。
我々の知る限りでは、BOUNツリーバンクはトルコ最大のツリーバンクである。
伝記、全国紙、教育文、大衆文化記事、エッセイなど様々な話題から9,761通の文章が収録されている。
さらに、BOUNツリーバンクおよびトルコの他の2つのツリーバンク上で得られた最先端の依存性パーサの解析結果を報告する。
以上の結果から,トルコ語のアノテーション体系の統合とツリーバンクの導入により,依存性解析の性能が向上することが示唆された。
関連論文リスト
- MaiBaam: A Multi-Dialectal Bavarian Universal Dependency Treebank [56.810282574817414]
We present the first multi-dialect Bavarian treebank (MaiBaam) based with part-of-speech and syntactic dependency information in Universal Dependencies (UD)。
我々は、近縁なバイエルン語とドイツ語のモルフォシンタクティックな相違を強調し、話者の正書法の豊富な多様性を示す。
私たちのコーパスには15kのトークンが含まれており、3つの国にまたがるバイエルン語を話すすべての地域の方言をカバーしています。
論文 参考訳(メタデータ) (2024-03-15T13:33:10Z) - Dependency Annotation of Ottoman Turkish with Multilingual BERT [0.0]
本研究は,トルコ語で最初のダンシーツリーバンクのための,事前訓練された大規模言語モデルに基づくアノテーション手法について紹介する。
結果として得られたツリーバンクは、オスマン帝国の文書を自動解析し、この歴史的遺産に埋め込まれた言語的豊かさを解放する。
論文 参考訳(メタデータ) (2024-02-22T17:58:50Z) - Enriching the NArabizi Treebank: A Multifaceted Approach to Supporting
an Under-Resourced Language [0.0]
ナラビジ (Narabizi) は、主にソーシャルメディアで使用される北アフリカのアラビア語のローマ字形である。
NArabizi Treebankの豊富なバージョンを紹介します。
論文 参考訳(メタデータ) (2023-06-26T17:27:31Z) - Enhancements to the BOUN Treebank Reflecting the Agglutinative Nature of
Turkish [0.6514569292630354]
我々は,ユビキタス依存の枠組みから外れることなく,非正規形態表現の欠如,高度に生産的な派生過程,およびBOUNツリーバンクにおけるトルコ語の同期形態表現の欠如の問題を解決することを目的としている。
特定の補題を分割し、派生を表すためにUDフレームワークのMISC(miscellaneous)タブを使うことによって、新しいアノテーションの慣習が導入された。
LSTMベースの依存関係で再アノテーションされたツリーバンクの表現機能をテストし、BoAT Toolの更新版が導入された。
論文 参考訳(メタデータ) (2022-07-24T17:56:27Z) - Building an Endangered Language Resource in the Classroom: Universal
Dependencies for Kakataibo [0.8938910048099864]
ペルーで話されているパノア語であるカタイボ語(Kakataibo)という、絶滅危惧言語のための新しいユニバーサル依存ツリーバンクをAmazoniaから立ち上げました。
まず,大学生を対象とした計算言語コースの文脈において,木バンクの作成に有効な協調手法について論じる。
論文 参考訳(メタデータ) (2022-06-21T12:58:56Z) - Incorporating Constituent Syntax for Coreference Resolution [50.71868417008133]
本稿では,構成構文構造をグラフベースで組み込む手法を提案する。
また、高次近傍情報を利用して構成木に富んだ構造をエンコードすることも検討する。
on the English and Chinese parts of OntoNotes 5.0 benchmark shows that our proposed model beats a strong baseline or a new-of-the-art performance。
論文 参考訳(メタデータ) (2022-02-22T07:40:42Z) - Learning compositional structures for semantic graph parsing [81.41592892863979]
本稿では、AM依存性解析をニューラル潜在変数モデルで直接トレーニングする方法を示す。
本モデルでは,いくつかの言語現象を独自に把握し,教師あり学習に匹敵する精度を達成している。
論文 参考訳(メタデータ) (2021-06-08T14:20:07Z) - Apurin\~a Universal Dependencies Treebank [0.4893345190925178]
本稿では,アプリーナ語における最初のユニバーサル依存ツリーバンクについて論じる。
ツリーバンクには、76の完全注釈文、14のパート・オブ・スペル、および7つの追加または新機能が含まれている。
論文 参考訳(メタデータ) (2021-06-07T07:42:00Z) - Treebanking User-Generated Content: a UD Based Overview of Guidelines,
Corpora and Unified Recommendations [58.50167394354305]
本稿では、ウェブやソーシャルメディアで見られるユーザ生成テキストの分析に困難をもたらす主要な言語現象について論じる。
本研究は,これらのテキストの特定の現象を一貫した処理を促進するための,一時的UDベースのガイドラインのセットを提案する。
論文 参考訳(メタデータ) (2020-11-03T23:34:42Z) - Strongly Incremental Constituency Parsing with Graph Neural Networks [70.16880251349093]
文を構文木にパースすることは、NLPの下流アプリケーションに恩恵をもたらす。
トランジッションベースは、状態遷移システムでアクションを実行することでツリーを構築する。
既存のトランジションベースは主にシフト・リデュース・トランジション・システムに基づいている。
論文 参考訳(メタデータ) (2020-10-27T19:19:38Z) - Recursive Top-Down Production for Sentence Generation with Latent Trees [77.56794870399288]
自然および合成言語に対する文脈自由文法の生成特性をモデル化する。
潜伏二分木構造にN$の葉を持つ動的プログラミングアルゴリズムを提案する。
また,Multi30kデータセットを用いたドイツ語と英語の翻訳実験を行った。
論文 参考訳(メタデータ) (2020-10-09T17:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。