論文の概要: Enhancements to the BOUN Treebank Reflecting the Agglutinative Nature of
Turkish
- arxiv url: http://arxiv.org/abs/2207.11782v1
- Date: Sun, 24 Jul 2022 17:56:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 14:06:36.601402
- Title: Enhancements to the BOUN Treebank Reflecting the Agglutinative Nature of
Turkish
- Title(参考訳): トルコの凝集性特性を反映したBOUNツリーバンクの強化
- Authors: B\"u\c{s}ra Mar\c{s}an, Salih Furkan Akkurt, Muhammet \c{S}en, Merve
G\"urb\"uz, Onur G\"ung\"or, \c{S}aziye Bet\"ul \"Ozate\c{s}, Suzan
\"Usk\"udarl{\i}, Arzucan \"Ozg\"ur, Tunga G\"ung\"or, Balk{\i}z \"Ozt\"urk
- Abstract要約: 我々は,ユビキタス依存の枠組みから外れることなく,非正規形態表現の欠如,高度に生産的な派生過程,およびBOUNツリーバンクにおけるトルコ語の同期形態表現の欠如の問題を解決することを目的としている。
特定の補題を分割し、派生を表すためにUDフレームワークのMISC(miscellaneous)タブを使うことによって、新しいアノテーションの慣習が導入された。
LSTMベースの依存関係で再アノテーションされたツリーバンクの表現機能をテストし、BoAT Toolの更新版が導入された。
- 参考スコア(独自算出の注目度): 0.6514569292630354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we aim to offer linguistically motivated solutions to resolve
the issues of the lack of representation of null morphemes, highly productive
derivational processes, and syncretic morphemes of Turkish in the BOUN Treebank
without diverging from the Universal Dependencies framework.
In order to tackle these issues, new annotation conventions were introduced
by splitting certain lemmas and employing the MISC (miscellaneous) tab in the
UD framework to denote derivation. Representational capabilities of the
re-annotated treebank were tested on a LSTM-based dependency parser and an
updated version of the BoAT Tool is introduced.
- Abstract(参考訳): 本研究では,ユビキタス依存フレームワークから切り離すことなく,言語的に動機付けされたソリューションを提供することで,ヌル形態素の表現の欠如,高度に生産的な導出過程,およびトルコのBOUNツリーバンクにおける同期形態素の解消を図ることを目的とする。
これらの問題に対処するために、特定の補題を分割し、派生を表すためにUDフレームワークにMISC(miscellaneous)タブを使用することにより、新しいアノテーション規則が導入された。
LSTMベースの依存性パーサで再アノテーションツリーバンクの表現機能をテストし、BoAT Toolの更新版が導入された。
関連論文リスト
- FENICE: Factuality Evaluation of summarization based on Natural language
Inference and Claim Extraction [92.2477303232719]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - Dependency Annotation of Ottoman Turkish with Multilingual BERT [0.0]
本研究では,トルコ語で最初の依存ツリーバンクに対する事前訓練された大規模言語モデルに基づくアノテーション手法を提案する。
結果として得られたツリーバンクは、オスマン帝国の文書を自動解析し、この歴史的遺産に埋め込まれた言語的豊かさを解放する。
論文 参考訳(メタデータ) (2024-02-22T17:58:50Z) - Differentiable Tree Operations Promote Compositional Generalization [106.59434079287661]
微分可能ツリーマシン(DTM)アーキテクチャは、インタプリタと外部メモリとエージェントを統合し、ツリー操作をシーケンシャルに選択することを学ぶ。
DTMは100%、Transformer、Tree Transformer、LSTM、Tree2Tree LSTMといった既存のベースラインは30%以下である。
論文 参考訳(メタデータ) (2023-06-01T14:46:34Z) - Constructing Code-mixed Universal Dependency Forest for Unbiased
Cross-lingual Relation Extraction [92.84968716013783]
言語間関係抽出(XRE)は,共通依存(UD)リソースから言語に一貫性のある構造的特徴を積極的に活用する。
コード混合型UDフォレストの構築により,非バイアス型UDベースXREトランスファーについて検討する。
このような森林特性により、トレーニングと予測フェーズ間のUDベースのXREのギャップを効果的に閉じることができる。
論文 参考訳(メタデータ) (2023-05-20T18:24:06Z) - CGELBank: CGEL as a Framework for English Syntax Annotation [11.042037758273226]
本稿では,CGELBank プロジェクトを通じて木バンクの世界に,CGEL (TextitCambridge Grammar of the English Language) の構文形式について紹介する。
コーパスアノテーションにフォーマリズムを適用する際に生じた言語分析の諸問題について論じ,次いで並列UDやTBツリーバンクと比較した定量的および定性的な比較を行った。
論文 参考訳(メタデータ) (2022-10-01T23:44:06Z) - Crosslingual Embeddings are Essential in UNMT for Distant Languages: An
English to IndoAryan Case Study [28.409618457653135]
言語間埋め込みによるUNMTモデルの埋め込み層の初期化は,既存の手法よりもBLEUスコアが大幅に向上したことを示す。
提案手法は,MASS (Masked Sequence to Sequence) とDAE (Denoising Autoencoder) UNMT (Denoising Autoencoder) UNMT) を用いて実験を行った。
論文 参考訳(メタデータ) (2021-06-09T11:31:27Z) - Treebanking User-Generated Content: a UD Based Overview of Guidelines,
Corpora and Unified Recommendations [58.50167394354305]
本稿では、ウェブやソーシャルメディアで見られるユーザ生成テキストの分析に困難をもたらす主要な言語現象について論じる。
本研究は,これらのテキストの特定の現象を一貫した処理を促進するための,一時的UDベースのガイドラインのセットを提案する。
論文 参考訳(メタデータ) (2020-11-03T23:34:42Z) - Discrete Variational Attention Models for Language Generation [51.88612022940496]
本稿では,言語における離散性に起因する注意機構のカテゴリー分布を考慮した離散的変動注意モデルを提案する。
離散性の特質により,提案手法の訓練は後部崩壊に支障を来さない。
論文 参考訳(メタデータ) (2020-04-21T05:49:04Z) - Reference Language based Unsupervised Neural Machine Translation [108.64894168968067]
教師なしの神経機械翻訳は ほぼ完全に パラレルコーパスの呪いを和らげる
我々はUNMTのための新しい参照言語ベースのフレームワークであるRUNMTを提案し、参照言語はソースと並列コーパスを共有するのみである。
実験の結果,一つの補助言語のみを用いる強いベースラインよりもUNMTの品質が向上することが確認された。
論文 参考訳(メタデータ) (2020-04-05T08:28:08Z) - Resources for Turkish Dependency Parsing: Introducing the BOUN Treebank
and the BoAT Annotation Tool [0.0]
トルコの係り受け解析のために開発した資源について紹介し,手作業による注釈付きツリーバンク(BOUN Treebank)について紹介する。
BOUNツリーバンクのアノテーションに関する決定は、Universal Dependencies (UD)フレームワークに従って行われた。
BOUNツリーバンクおよびトルコの他の2つのツリーバンク上で得られた最先端の依存性アノテーションの結果を報告する。
論文 参考訳(メタデータ) (2020-02-24T17:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。