論文の概要: The UD-NewsCrawl Treebank: Reflections and Challenges from a Large-scale Tagalog Syntactic Annotation Project
- arxiv url: http://arxiv.org/abs/2505.20428v1
- Date: Mon, 26 May 2025 18:25:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.240818
- Title: The UD-NewsCrawl Treebank: Reflections and Challenges from a Large-scale Tagalog Syntactic Annotation Project
- Title(参考訳): UD-NewsCrawl Treebank:大規模タガログ構文アノテーションプロジェクトからのリフレクションと課題
- Authors: Angelina A. Aquino, Lester James V. Miranda, Elsie Marie T. Or,
- Abstract要約: 本稿では,これまでで最大規模のタガログツリーバンクであるUD-NewsCrawlについて,Universal Dependenciesフレームワークに従って手作業で15.6kのツリーを作成した。
データ収集、前処理、手動アノテーション、品質保証手順など、ツリーバンクの開発プロセスについて詳述する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents UD-NewsCrawl, the largest Tagalog treebank to date, containing 15.6k trees manually annotated according to the Universal Dependencies framework. We detail our treebank development process, including data collection, pre-processing, manual annotation, and quality assurance procedures. We provide baseline evaluations using multiple transformer-based models to assess the performance of state-of-the-art dependency parsers on Tagalog. We also highlight challenges in the syntactic analysis of Tagalog given its distinctive grammatical properties, and discuss its implications for the annotation of this treebank. We anticipate that UD-NewsCrawl and our baseline model implementations will serve as valuable resources for advancing computational linguistics research in underrepresented languages like Tagalog.
- Abstract(参考訳): 本稿では,これまでで最大規模のタガログツリーバンクであるUD-NewsCrawlについて述べる。
データ収集、前処理、手動アノテーション、品質保証手順など、ツリーバンクの開発プロセスについて詳述する。
本稿では,複数変圧器モデルを用いたベースライン評価を行い,タガログ上での最先端依存性解析の性能評価を行う。
また,タガログの文法的特徴を考慮に入れた構文解析の課題を強調し,この木バンクの注釈にその意味を論じる。
我々は、UD-NewsCrawlとベースラインモデルの実装が、タガログのような表現不足言語における計算言語学研究を前進させるための貴重な資源になることを期待している。
関連論文リスト
- Think&Cite: Improving Attributed Text Generation with Self-Guided Tree Search and Progress Reward Modeling [63.98194996746229]
大型言語モデル(LLM)は幻覚を起こし、事実的に誤った情報を生み出す傾向にある。
我々はThink&Citeと呼ばれる新しいフレームワークを提案し、検索と統合された多段階推論問題として属性付きテキスト生成を定式化する。
論文 参考訳(メタデータ) (2024-12-19T13:55:48Z) - Dependency Annotation of Ottoman Turkish with Multilingual BERT [0.0]
本研究は,トルコ語で最初のダンシーツリーバンクのための,事前訓練された大規模言語モデルに基づくアノテーション手法について紹介する。
結果として得られたツリーバンクは、オスマン帝国の文書を自動解析し、この歴史的遺産に埋め込まれた言語的豊かさを解放する。
論文 参考訳(メタデータ) (2024-02-22T17:58:50Z) - Developing a Named Entity Recognition Dataset for Tagalog [0.0]
このデータセットには、3つのエンティティタイプにわたる7.8kドキュメントが含まれている。
コーエンの$kappa$で測定されたアノテーション間の合意は0.81である。
今後Tagalog NLPの開発に刺激を与えるために、データと処理のコードを公開しました。
論文 参考訳(メタデータ) (2023-11-13T08:56:47Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Enriching the NArabizi Treebank: A Multifaceted Approach to Supporting
an Under-Resourced Language [0.0]
ナラビジ (Narabizi) は、主にソーシャルメディアで使用される北アフリカのアラビア語のローマ字形である。
NArabizi Treebankの豊富なバージョンを紹介します。
論文 参考訳(メタデータ) (2023-06-26T17:27:31Z) - Uni-Parser: Unified Semantic Parser for Question Answering on Knowledge
Base and Database [86.03294330305097]
知識ベース(KB)とデータベース(DB)の両方で質問応答(QA)を統一した意味的要素を提案する。
フレームワークに不可欠な要素としてプリミティブ(KBのリレーションとエンティティ、テーブル名、列名、DBのセル値)を導入します。
生成元を利用して、異なる操作でトップランクプリミティブを変更・構成することで、最終的な論理形式を予測する。
論文 参考訳(メタデータ) (2022-11-09T19:33:27Z) - Benchmarking zero-shot and few-shot approaches for tokenization,
tagging, and dependency parsing of Tagalog text [0.0]
注釈付きタガログデータがない場合にタスク固有モデル作成に補助的なデータソースを使用することを検討する。
これらのゼロショットと少数ショットのアプローチは、ドメイン内およびドメイン外の両方のタガログテキストの文法解析を大幅に改善することを示す。
論文 参考訳(メタデータ) (2022-08-03T02:20:10Z) - Incorporating Constituent Syntax for Coreference Resolution [50.71868417008133]
本稿では,構成構文構造をグラフベースで組み込む手法を提案する。
また、高次近傍情報を利用して構成木に富んだ構造をエンコードすることも検討する。
on the English and Chinese parts of OntoNotes 5.0 benchmark shows that our proposed model beats a strong baseline or a new-of-the-art performance。
論文 参考訳(メタデータ) (2022-02-22T07:40:42Z) - Treebanking User-Generated Content: a UD Based Overview of Guidelines,
Corpora and Unified Recommendations [58.50167394354305]
本稿では、ウェブやソーシャルメディアで見られるユーザ生成テキストの分析に困難をもたらす主要な言語現象について論じる。
本研究は,これらのテキストの特定の現象を一貫した処理を促進するための,一時的UDベースのガイドラインのセットを提案する。
論文 参考訳(メタデータ) (2020-11-03T23:34:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。