論文の概要: UD-English-CHILDES: A Collected Resource of Gold and Silver Universal Dependencies Trees for Child Language Interactions
- arxiv url: http://arxiv.org/abs/2504.20304v1
- Date: Mon, 28 Apr 2025 23:20:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.690892
- Title: UD-English-CHILDES: A Collected Resource of Gold and Silver Universal Dependencies Trees for Child Language Interactions
- Title(参考訳): UD- English-ChiLDES:児童言語相互作用のための金と銀のユニバーサル依存木の収集資源
- Authors: Xiulin Yang, Zhuoxuan Ju, Lanni Bu, Zoey Liu, Nathan Schneider,
- Abstract要約: 本稿では,UD- English-CHILDESについて紹介する。
コーパスは11人の子供とその介護者のアノテーションを調和させ,48k以上の文を収録した。
- 参考スコア(独自算出の注目度): 9.218991698992815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: CHILDES is a widely used resource of transcribed child and child-directed speech. This paper introduces UD-English-CHILDES, the first officially released Universal Dependencies (UD) treebank derived from previously dependency-annotated CHILDES data with consistent and unified annotation guidelines. Our corpus harmonizes annotations from 11 children and their caregivers, totaling over 48k sentences. We validate existing gold-standard annotations under the UD v2 framework and provide an additional 1M silver-standard sentences, offering a consistent resource for computational and linguistic research.
- Abstract(参考訳): ChiLDESは、転写された子供と子供指向の音声のリソースとして広く使われている。
本稿では,一貫したガイドラインと統一されたガイドラインを付加した依存性アノテートされたCHILDESデータから得られた,UD- English-CHILDES というツリーバンクについて紹介する。
コーパスは11人の子供とその介護者のアノテーションを調和させ,総文数は48万文を超えている。
我々は、UD v2フレームワークの下で既存のゴールドスタンダードアノテーションを検証し、さらに100万の銀標準文を提供し、計算および言語研究のための一貫したリソースを提供する。
関連論文リスト
- MaiBaam: A Multi-Dialectal Bavarian Universal Dependency Treebank [56.810282574817414]
We present the first multi-dialect Bavarian treebank (MaiBaam) based with part-of-speech and syntactic dependency information in Universal Dependencies (UD)。
我々は、近縁なバイエルン語とドイツ語のモルフォシンタクティックな相違を強調し、話者の正書法の豊富な多様性を示す。
私たちのコーパスには15kのトークンが含まれており、3つの国にまたがるバイエルン語を話すすべての地域の方言をカバーしています。
論文 参考訳(メタデータ) (2024-03-15T13:33:10Z) - Universal NER: A Gold-Standard Multilingual Named Entity Recognition Benchmark [39.01204607174688]
オープンなコミュニティ主導プロジェクトであるUniversal NER(UNER)を紹介し,多くの言語でゴールドスタンダードなNERベンチマークを開発する。
UNER v1には、12の異なる言語にまたがる言語間一貫性のあるスキーマで、名前付きエンティティで注釈付けされた18のデータセットが含まれている。
論文 参考訳(メタデータ) (2023-11-15T17:09:54Z) - Constructing Code-mixed Universal Dependency Forest for Unbiased
Cross-lingual Relation Extraction [92.84968716013783]
言語間関係抽出(XRE)は,共通依存(UD)リソースから言語に一貫性のある構造的特徴を積極的に活用する。
コード混合型UDフォレストの構築により,非バイアス型UDベースXREトランスファーについて検討する。
このような森林特性により、トレーニングと予測フェーズ間のUDベースのXREのギャップを効果的に閉じることができる。
論文 参考訳(メタデータ) (2023-05-20T18:24:06Z) - NusaCrowd: Open Source Initiative for Indonesian NLP Resources [104.5381571820792]
NusaCrowdは、インドネシア語の既存のリソースを収集し、統一する共同イニシアチブである。
我々の研究は、広く話されているにもかかわらず表現されていない言語に対する自然言語処理(NLP)の研究を進めようとしている。
論文 参考訳(メタデータ) (2022-12-19T17:28:22Z) - Developing Universal Dependency Treebanks for Magahi and Braj [0.7349727826230861]
本稿では、マガヒ語とブラージュ語という2つの低リソースのインドの言語のためのツリーバンクの開発について論じる。
マガヒの木バンクには945の文と500の文からなるブラージュの木バンクがあり、その補題、部分音声、形態的特徴、普遍的な依存関係が特徴である。
論文 参考訳(メタデータ) (2022-04-26T23:43:41Z) - Cross-linguistically Consistent Semantic and Syntactic Annotation of Child-directed Speech [27.657676278734534]
本稿では,子指向音声のこのようなコーパスを,感性論理形式と組み合わせて構築する手法を提案する。
このアプローチは言語間一貫した表現を強制し、依存関係表現とセマンティック解析の最近の進歩に基づいている。
論文 参考訳(メタデータ) (2021-09-22T18:17:06Z) - Multilingual Irony Detection with Dependency Syntax and Neural Models [61.32653485523036]
これは構文知識からの貢献に焦点を当て、普遍依存スキームに従って構文が注釈付けされた言語資源を活用する。
その結果, 依存性をベースとした微粒な構文情報は, アイロンの検出に有用であることが示唆された。
論文 参考訳(メタデータ) (2020-11-11T11:22:05Z) - Treebanking User-Generated Content: a UD Based Overview of Guidelines,
Corpora and Unified Recommendations [58.50167394354305]
本稿では、ウェブやソーシャルメディアで見られるユーザ生成テキストの分析に困難をもたらす主要な言語現象について論じる。
本研究は,これらのテキストの特定の現象を一貫した処理を促進するための,一時的UDベースのガイドラインのセットを提案する。
論文 参考訳(メタデータ) (2020-11-03T23:34:42Z) - Prague Dependency Treebank -- Consolidated 1.0 [1.7147127043116672]
Prague Dependency Treebank-Consolidated 1.0 (PDT-C 1.0)
PDT-C 1.0はチェコの4つの異なるデータセットを含み、標準のPDTスキームで一様に注釈付けされている。
ツリーバンクには、その形態的、表面的、そして深い構文的アノテーションを含む約180,000の文が含まれている。
論文 参考訳(メタデータ) (2020-06-05T20:52:55Z) - Universal Dependencies v2: An Evergrowing Multilingual Treebank
Collection [33.86322085911299]
Universal Dependenciesは、多くの言語に対して言語横断的に一貫性のあるツリーバンクアノテーションを作成するためのオープンコミュニティの取り組みである。
ガイドライン(UD v2)のバージョン2を説明し、UD v1からUD v2への大きな変更について論じ、現在90言語で利用可能なツリーバンクについて概説する。
論文 参考訳(メタデータ) (2020-04-22T15:38:18Z) - Word Sense Disambiguation for 158 Languages using Word Embeddings Only [80.79437083582643]
文脈における単語感覚の曖昧さは人間にとって容易であるが、自動的アプローチでは大きな課題である。
本稿では,学習前の標準単語埋め込みモデルを入力として,完全に学習した単語認識のインベントリを誘導する手法を提案する。
この手法を用いて、158の言語に対して、事前訓練されたfastText単語の埋め込みに基づいて、センスインベントリのコレクションを誘導する。
論文 参考訳(メタデータ) (2020-03-14T14:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。