論文の概要: Enhancements to the BOUN Treebank Reflecting the Agglutinative Nature of
Turkish
- arxiv url: http://arxiv.org/abs/2207.11782v1
- Date: Sun, 24 Jul 2022 17:56:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 14:06:36.601402
- Title: Enhancements to the BOUN Treebank Reflecting the Agglutinative Nature of
Turkish
- Title(参考訳): トルコの凝集性特性を反映したBOUNツリーバンクの強化
- Authors: B\"u\c{s}ra Mar\c{s}an, Salih Furkan Akkurt, Muhammet \c{S}en, Merve
G\"urb\"uz, Onur G\"ung\"or, \c{S}aziye Bet\"ul \"Ozate\c{s}, Suzan
\"Usk\"udarl{\i}, Arzucan \"Ozg\"ur, Tunga G\"ung\"or, Balk{\i}z \"Ozt\"urk
- Abstract要約: 我々は,ユビキタス依存の枠組みから外れることなく,非正規形態表現の欠如,高度に生産的な派生過程,およびBOUNツリーバンクにおけるトルコ語の同期形態表現の欠如の問題を解決することを目的としている。
特定の補題を分割し、派生を表すためにUDフレームワークのMISC(miscellaneous)タブを使うことによって、新しいアノテーションの慣習が導入された。
LSTMベースの依存関係で再アノテーションされたツリーバンクの表現機能をテストし、BoAT Toolの更新版が導入された。
- 参考スコア(独自算出の注目度): 0.6514569292630354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we aim to offer linguistically motivated solutions to resolve
the issues of the lack of representation of null morphemes, highly productive
derivational processes, and syncretic morphemes of Turkish in the BOUN Treebank
without diverging from the Universal Dependencies framework.
In order to tackle these issues, new annotation conventions were introduced
by splitting certain lemmas and employing the MISC (miscellaneous) tab in the
UD framework to denote derivation. Representational capabilities of the
re-annotated treebank were tested on a LSTM-based dependency parser and an
updated version of the BoAT Tool is introduced.
- Abstract(参考訳): 本研究では,ユビキタス依存フレームワークから切り離すことなく,言語的に動機付けされたソリューションを提供することで,ヌル形態素の表現の欠如,高度に生産的な導出過程,およびトルコのBOUNツリーバンクにおける同期形態素の解消を図ることを目的とする。
これらの問題に対処するために、特定の補題を分割し、派生を表すためにUDフレームワークにMISC(miscellaneous)タブを使用することにより、新しいアノテーション規則が導入された。
LSTMベースの依存性パーサで再アノテーションツリーバンクの表現機能をテストし、BoAT Toolの更新版が導入された。
関連論文リスト
- Thai Universal Dependency Treebank [0.0]
我々は,3,627本の木からなるタイ国最大のツリーバンクであるタイ・ユニバーサル・依存性ツリーバンク(TUD)について,UD(Universal Dependency)フレームワークに従って紹介する。
次に、事前学習したエンコーダを組み込んだ依存性解析モデルをベンチマークし、タイのPUDとTUDでトレーニングする。
その結果、我々のモデルのほとんどは、以前の論文で報告された他のモデルよりも優れており、タイの依存するコンポーネントの最適な選択についての洞察を提供することができることがわかった。
論文 参考訳(メタデータ) (2024-05-13T09:48:13Z) - Negation Triplet Extraction with Syntactic Dependency and Semantic Consistency [37.99421732397288]
SSENEはマルチタスク学習フレームワークを備えたデコーダアーキテクチャのPLM(Generative Pretrained Language Model)に基づいて構築されている。
我々は,Meituanの現実世界プラットフォームからのユーザレビューに基づいて,高品質な中国語データセットNegCommentを構築した。
論文 参考訳(メタデータ) (2024-04-15T14:28:33Z) - FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - Enhancing Systematic Decompositional Natural Language Inference Using Informal Logic [51.967603572656266]
我々は,分解包含を注釈付けするための一貫した理論的なアプローチを導入する。
我々の新しいデータセットRDTEは、前回の分解エンターメントデータセットよりもかなり高い内部整合性(+9%)を持つことがわかった。
また,RDTE による知識蒸留によるエンテーメント分類器の訓練や,エンテーメントツリー推論エンジンへの導入により,精度と検証精度が向上することが確認された。
論文 参考訳(メタデータ) (2024-02-22T18:55:17Z) - Dependency Annotation of Ottoman Turkish with Multilingual BERT [0.0]
本研究は,トルコ語で最初のダンシーツリーバンクのための,事前訓練された大規模言語モデルに基づくアノテーション手法について紹介する。
結果として得られたツリーバンクは、オスマン帝国の文書を自動解析し、この歴史的遺産に埋め込まれた言語的豊かさを解放する。
論文 参考訳(メタデータ) (2024-02-22T17:58:50Z) - Injecting linguistic knowledge into BERT for Dialogue State Tracking [60.42231674887294]
本稿では,教師なしの枠組みを用いて言語知識を抽出する手法を提案する。
次に、この知識を用いて、対話状態追跡(DST)タスクにおけるBERTの性能と解釈可能性を高める。
このフレームワークを様々なDSTタスクでベンチマークし、精度の顕著な改善を観察する。
論文 参考訳(メタデータ) (2023-11-27T08:38:42Z) - Constructing Code-mixed Universal Dependency Forest for Unbiased
Cross-lingual Relation Extraction [92.84968716013783]
言語間関係抽出(XRE)は,共通依存(UD)リソースから言語に一貫性のある構造的特徴を積極的に活用する。
コード混合型UDフォレストの構築により,非バイアス型UDベースXREトランスファーについて検討する。
このような森林特性により、トレーニングと予測フェーズ間のUDベースのXREのギャップを効果的に閉じることができる。
論文 参考訳(メタデータ) (2023-05-20T18:24:06Z) - CGELBank: CGEL as a Framework for English Syntax Annotation [11.042037758273226]
本稿では,CGELBank プロジェクトを通じて木バンクの世界に,CGEL (TextitCambridge Grammar of the English Language) の構文形式について紹介する。
コーパスアノテーションにフォーマリズムを適用する際に生じた言語分析の諸問題について論じ,次いで並列UDやTBツリーバンクと比較した定量的および定性的な比較を行った。
論文 参考訳(メタデータ) (2022-10-01T23:44:06Z) - Treebanking User-Generated Content: a UD Based Overview of Guidelines,
Corpora and Unified Recommendations [58.50167394354305]
本稿では、ウェブやソーシャルメディアで見られるユーザ生成テキストの分析に困難をもたらす主要な言語現象について論じる。
本研究は,これらのテキストの特定の現象を一貫した処理を促進するための,一時的UDベースのガイドラインのセットを提案する。
論文 参考訳(メタデータ) (2020-11-03T23:34:42Z) - Reference Language based Unsupervised Neural Machine Translation [108.64894168968067]
教師なしの神経機械翻訳は ほぼ完全に パラレルコーパスの呪いを和らげる
我々はUNMTのための新しい参照言語ベースのフレームワークであるRUNMTを提案し、参照言語はソースと並列コーパスを共有するのみである。
実験の結果,一つの補助言語のみを用いる強いベースラインよりもUNMTの品質が向上することが確認された。
論文 参考訳(メタデータ) (2020-04-05T08:28:08Z) - Resources for Turkish Dependency Parsing: Introducing the BOUN Treebank
and the BoAT Annotation Tool [0.0]
トルコの係り受け解析のために開発した資源について紹介し,手作業による注釈付きツリーバンク(BOUN Treebank)について紹介する。
BOUNツリーバンクのアノテーションに関する決定は、Universal Dependencies (UD)フレームワークに従って行われた。
BOUNツリーバンクおよびトルコの他の2つのツリーバンク上で得られた最先端の依存性アノテーションの結果を報告する。
論文 参考訳(メタデータ) (2020-02-24T17:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。