論文の概要: Cross-linguistically Consistent Semantic and Syntactic Annotation of Child-directed Speech
- arxiv url: http://arxiv.org/abs/2109.10952v2
- Date: Thu, 14 Mar 2024 18:23:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 08:10:52.909131
- Title: Cross-linguistically Consistent Semantic and Syntactic Annotation of Child-directed Speech
- Title(参考訳): 子ども向け音声の言語間一貫性のある意味と統語的アノテーション
- Authors: Ida Szubert, Omri Abend, Nathan Schneider, Samuel Gibbon, Louis Mahon, Sharon Goldwater, Mark Steedman,
- Abstract要約: 本稿では,子指向音声のこのようなコーパスを,感性論理形式と組み合わせて構築する手法を提案する。
このアプローチは言語間一貫した表現を強制し、依存関係表現とセマンティック解析の最近の進歩に基づいている。
- 参考スコア(独自算出の注目度): 27.657676278734534
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper proposes a methodology for constructing such corpora of child directed speech (CDS) paired with sentential logical forms, and uses this method to create two such corpora, in English and Hebrew. The approach enforces a cross-linguistically consistent representation, building on recent advances in dependency representation and semantic parsing. Specifically, the approach involves two steps. First, we annotate the corpora using the Universal Dependencies (UD) scheme for syntactic annotation, which has been developed to apply consistently to a wide variety of domains and typologically diverse languages. Next, we further annotate these data by applying an automatic method for transducing sentential logical forms (LFs) from UD structures. The UD and LF representations have complementary strengths: UD structures are language-neutral and support consistent and reliable annotation by multiple annotators, whereas LFs are neutral as to their syntactic derivation and transparently encode semantic relations. Using this approach, we provide syntactic and semantic annotation for two corpora from CHILDES: Brown's Adam corpus (English; we annotate ~80% of its child-directed utterances), all child-directed utterances from Berman's Hagar corpus (Hebrew). We verify the quality of the UD annotation using an inter-annotator agreement study, and manually evaluate the transduced meaning representations. We then demonstrate the utility of the compiled corpora through (1) a longitudinal corpus study of the prevalence of different syntactic and semantic phenomena in the CDS, and (2) applying an existing computational model of language acquisition to the two corpora and briefly comparing the results across languages.
- Abstract(参考訳): 本稿では,子ども指向音声(CDS)と感性論理形式を組み合わせたコーパスを構築する手法を提案し,この手法を用いて英語とヘブライ語で2つのコーパスを作成する。
このアプローチは言語間一貫した表現を強制し、依存関係表現とセマンティック解析の最近の進歩に基づいている。
具体的には、このアプローチには2つのステップがあります。
まず,多種多様なドメインや類型的多様言語に一貫して適用するために開発された統語的アノテーションに対して,ユニバーサル依存(UD)方式を用いてコーパスに注釈を付ける。
次に,感性論理形式(LF)をUD構造から自動変換する手法を適用することで,これらのデータに注釈を付ける。
UD構造は言語ニュートラルであり、複数のアノテータによる一貫性と信頼性のあるアノテーションをサポートする。
このアプローチを用いて、我々はChiLDESの2つのコーパスに対して、Bown's Adam corpus (英: annotate ~80% of its child-directed utterances, all child-directed utterances from Berman's Hagar corpus (ヘブライ語)という構文的・意味的アノテーションを提供する。
我々は、アノテーション間合意研究を用いてUDアノテーションの品質を検証し、変換された意味表現を手動で評価する。
次に,(1)CDSにおける異なる構文・意味現象の出現状況に関する縦断的なコーパス研究を行い,(2)既存の言語習得モデルを適用し,言語間の結果を短時間で比較することで,コンパイルコーパスの有用性を実証する。
関連論文リスト
- Bidirectional Transformer Representations of (Spanish) Ambiguous Words in Context: A New Lexical Resource and Empirical Analysis [2.2530496464901106]
大規模な言語モデルの文脈化された単語埋め込みを英語以外の言語で比較する研究はほとんどない。
スペイン語のあいまいな名詞の複数の双方向トランスフォーマー(BERT)意味表現を文脈で評価した。
様々なBERTに基づくLLMの文脈的意味表現は、人間の判断に多少のばらつきがあるが、人間のベンチマークには及ばない。
論文 参考訳(メタデータ) (2024-06-20T18:58:11Z) - A Compositional Typed Semantics for Universal Dependencies [26.65442947858347]
本稿では,語彙項目に対する意味型と論理形式を構成的,原則的,言語に依存しないシステムであるUD Type Calculusを紹介する。
本稿では,UD型計算の本質的特徴について説明する。
既存の文のコーパスとその論理形式について,UD-TCがベースラインに匹敵する意味を生成できることを示す。
論文 参考訳(メタデータ) (2024-03-02T11:58:24Z) - Cross-domain Chinese Sentence Pattern Parsing [67.1381983012038]
文パターン構造解析(SPS)は、主に言語教育に使用される構文解析法である。
既存のSPSは教科書のコーパスに大きく依存しており、クロスドメイン機能に欠ける。
本稿では,大規模言語モデル(LLM)を自己学習フレームワーク内で活用する革新的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T05:30:48Z) - mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view
Contrastive Learning [54.523172171533645]
CrossNERは多言語コーパスの不足により不均一な性能から生じる課題に直面している。
言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。
40言語にまたがるXTREMEベンチマーク実験では、従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-08-17T16:02:29Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Comparison by Conversion: Reverse-Engineering UCCA from Syntax and
Lexical Semantics [29.971739294416714]
堅牢な自然言語理解システムの構築には、さまざまな言語的意味表現が相互に補完するかどうか、明確に評価する必要がある。
i)ルールベースのコンバータ,(ii)他の情報のみを特徴として1つのフレームワークに解析する教師付きデレクシカル化の2つの相補的手法を用いて,異なるフレームワークからの意味表現間のマッピングを評価する。
論文 参考訳(メタデータ) (2020-11-02T09:03:46Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z) - Joint Semantic Analysis with Document-Level Cross-Task Coherence Rewards [13.753240692520098]
本稿では,共用コア参照解決のためのニューラルネットワークアーキテクチャと,英語のセマンティックロールラベリングについて述べる。
我々は、文書と意味的アノテーション間のグローバルコヒーレンスを促進するために強化学習を使用します。
これにより、異なるドメインからの複数のデータセットにおける両方のタスクが改善される。
論文 参考訳(メタデータ) (2020-10-12T09:36:24Z) - Constructing a Family Tree of Ten Indo-European Languages with
Delexicalized Cross-linguistic Transfer Patterns [57.86480614673034]
我々は,デレクシカル化転送を,解釈可能なツリー・ツー・ストリングパターンとツリー・ツー・ツリーパターンとして定式化する。
これにより、言語間移動を定量的に探索し、第二言語習得の問い合わせを拡張することができる。
論文 参考訳(メタデータ) (2020-07-17T15:56:54Z) - Cross-lingual Entity Alignment with Incidental Supervision [76.66793175159192]
本稿では,多言語KGとテキストコーパスを共通埋め込み方式で共同で表現する,偶発的に教師付きモデルであるJEANSを提案する。
ベンチマークデータセットの実験では、JEANSがエンティティアライメントとインシデントインシデントインシデントインスペクションの改善を期待できる結果となった。
論文 参考訳(メタデータ) (2020-05-01T01:53:56Z) - Universal Dependencies v2: An Evergrowing Multilingual Treebank
Collection [33.86322085911299]
Universal Dependenciesは、多くの言語に対して言語横断的に一貫性のあるツリーバンクアノテーションを作成するためのオープンコミュニティの取り組みである。
ガイドライン(UD v2)のバージョン2を説明し、UD v1からUD v2への大きな変更について論じ、現在90言語で利用可能なツリーバンクについて概説する。
論文 参考訳(メタデータ) (2020-04-22T15:38:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。