論文の概要: Cross-linguistically Consistent Semantic and Syntactic Annotation of
Child-directed Speech
- arxiv url: http://arxiv.org/abs/2109.10952v1
- Date: Wed, 22 Sep 2021 18:17:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-25 03:08:56.600444
- Title: Cross-linguistically Consistent Semantic and Syntactic Annotation of
Child-directed Speech
- Title(参考訳): 子指向音声の言語間連続意味と構文アノテーション
- Authors: Ida Szubert, Omri Abend, Nathan Schneider, Samuel Gibbon, Sharon
Goldwater and Mark Steedman
- Abstract要約: 我々は、英語とヘブライ語で2つの子供指向の音声コーパスをコンパイルする。
コーパスをコンパイルする際には、言語横断的に一貫した表現を強制する方法論を使用します。
本研究では, 構文的, 意味的現象の有病率の経時的研究を通して, コンパイルコーパスの有用性を実証する。
- 参考スコア(独自算出の注目度): 45.49110007565475
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: While corpora of child speech and child-directed speech (CDS) have enabled
major contributions to the study of child language acquisition, semantic
annotation for such corpora is still scarce and lacks a uniform standard. We
compile two CDS corpora with sentential logical forms, one in English and the
other in Hebrew. In compiling the corpora we employ a methodology that enforces
a cross-linguistically consistent representation, building on recent advances
in dependency representation and semantic parsing. The corpora are based on a
sizable portion of Brown's Adam corpus from CHILDES (about 80% of its
child-directed utterances), and to all child-directed utterances from Berman's
Hebrew CHILDES corpus Hagar.
We begin by annotating the corpora with the Universal Dependencies (UD)
scheme for syntactic annotation, motivated by its applicability to a wide
variety of domains and languages. We then proceed by applying an automatic
method for transducing sentential logical forms (LFs) from UD structures. The
two representations have complementary strengths: UD structures are
language-neutral and support direct annotation, whereas LFs are neutral as to
the interface between syntax and semantics, and transparently encode semantic
distinctions. We verify the quality of the annotated UD annotation using an
inter-annotator agreement study. We then demonstrate the utility of the
compiled corpora through a longitudinal corpus study of the prevalence of
different syntactic and semantic phenomena.
- Abstract(参考訳): 児童発話のコーパスと子ども向け発話(cds)は、児童言語習得の研究に大きな貢献をしてきたが、コーパスの意味的アノテーションはまだ乏しく、統一された標準が欠如している。
2つのCDSコーパスを,1つは英語で,もう1つはヘブライ語で,逐次論理形式でコンパイルする。
コーパスをコンパイルする際には、依存関係表現とセマンティック解析の最近の進歩に基づいて、言語間一貫した表現を強制する方法論を用いる。
コーポラは、子供からのブラウンのアダム・コーパスのかなりの部分(子供向けコーパスの約80%)と、ベルマンのヘブライ語コーパス・ハーガーからの全ての子供向け発話に基づいている。
まず,多種多様なドメインや言語に適用可能であることを動機として,コーパスに統語的アノテーションのためのUD(Universal Dependencies)スキームをアノテートすることから始める。
次に、UD構造から逐次論理形式(LF)を自動変換する手法を適用する。
UD構造は言語ニュートラルであり、直接アノテーションをサポートするが、LFは構文と意味論のインターフェースに関して中立であり、意味的区別を透過的にエンコードする。
注釈付きUDアノテーションの品質を,アノテーション間合意研究を用いて検証する。
次に,異なる構文的および意味的現象の有病率に関する縦型コーパス研究を通して,コンパイルされたコーパスの有用性を実証する。
関連論文リスト
- A Compositional Typed Semantics for Universal Dependencies [26.65442947858347]
本稿では,語彙項目に対する意味型と論理形式を構成的,原則的,言語に依存しないシステムであるUD Type Calculusを紹介する。
本稿では,UD型計算の本質的特徴について説明する。
既存の文のコーパスとその論理形式について,UD-TCがベースラインに匹敵する意味を生成できることを示す。
論文 参考訳(メタデータ) (2024-03-02T11:58:24Z) - Cross-domain Chinese Sentence Pattern Parsing [67.1381983012038]
文パターン構造解析(SPS)は、主に言語教育に使用される構文解析法である。
既存のSPSは教科書のコーパスに大きく依存しており、クロスドメイン機能に欠ける。
本稿では,大規模言語モデル(LLM)を自己学習フレームワーク内で活用する革新的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T05:30:48Z) - mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view
Contrastive Learning [54.523172171533645]
CrossNERは多言語コーパスの不足により不均一な性能から生じる課題に直面している。
言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。
40言語にまたがるXTREMEベンチマーク実験では、従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-08-17T16:02:29Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Comparison by Conversion: Reverse-Engineering UCCA from Syntax and
Lexical Semantics [29.971739294416714]
堅牢な自然言語理解システムの構築には、さまざまな言語的意味表現が相互に補完するかどうか、明確に評価する必要がある。
i)ルールベースのコンバータ,(ii)他の情報のみを特徴として1つのフレームワークに解析する教師付きデレクシカル化の2つの相補的手法を用いて,異なるフレームワークからの意味表現間のマッピングを評価する。
論文 参考訳(メタデータ) (2020-11-02T09:03:46Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z) - Joint Semantic Analysis with Document-Level Cross-Task Coherence Rewards [13.753240692520098]
本稿では,共用コア参照解決のためのニューラルネットワークアーキテクチャと,英語のセマンティックロールラベリングについて述べる。
我々は、文書と意味的アノテーション間のグローバルコヒーレンスを促進するために強化学習を使用します。
これにより、異なるドメインからの複数のデータセットにおける両方のタスクが改善される。
論文 参考訳(メタデータ) (2020-10-12T09:36:24Z) - Constructing a Family Tree of Ten Indo-European Languages with
Delexicalized Cross-linguistic Transfer Patterns [57.86480614673034]
我々は,デレクシカル化転送を,解釈可能なツリー・ツー・ストリングパターンとツリー・ツー・ツリーパターンとして定式化する。
これにより、言語間移動を定量的に探索し、第二言語習得の問い合わせを拡張することができる。
論文 参考訳(メタデータ) (2020-07-17T15:56:54Z) - Fine-Grained Analysis of Cross-Linguistic Syntactic Divergences [18.19093600136057]
並列コーパスから任意の言語対の発散パターンを抽出するフレームワークを提案する。
我々のフレームワークは、言語間の相違の詳細な図を提供し、以前のアプローチを一般化し、完全に自動化することを示します。
論文 参考訳(メタデータ) (2020-05-07T13:05:03Z) - Cross-lingual Entity Alignment with Incidental Supervision [76.66793175159192]
本稿では,多言語KGとテキストコーパスを共通埋め込み方式で共同で表現する,偶発的に教師付きモデルであるJEANSを提案する。
ベンチマークデータセットの実験では、JEANSがエンティティアライメントとインシデントインシデントインシデントインスペクションの改善を期待できる結果となった。
論文 参考訳(メタデータ) (2020-05-01T01:53:56Z) - Universal Dependencies v2: An Evergrowing Multilingual Treebank
Collection [33.86322085911299]
Universal Dependenciesは、多くの言語に対して言語横断的に一貫性のあるツリーバンクアノテーションを作成するためのオープンコミュニティの取り組みである。
ガイドライン(UD v2)のバージョン2を説明し、UD v1からUD v2への大きな変更について論じ、現在90言語で利用可能なツリーバンクについて概説する。
論文 参考訳(メタデータ) (2020-04-22T15:38:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。