論文の概要: CAIT: A Syntactic Parsing Toolkit for Child-Adult InTeractions
- arxiv url: http://arxiv.org/abs/2605.19718v1
- Date: Tue, 19 May 2026 11:53:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.307944
- Title: CAIT: A Syntactic Parsing Toolkit for Child-Adult InTeractions
- Title(参考訳): CAIT: 子どもの身近な行動に対する構文解析用ツールキット
- Authors: Francesca Padovani, Xiulin Yang, Bastian Bunzeck, Jaap Jumelet, Yevgen Matusevych, Nathan Schneider, Arianna Bisazza,
- Abstract要約: 子どものためのオープンソース構文解析ツールキットCAIT(Syntactic Parsing Toolkit for Child-Adult InTeractions)をリリースする。
CHILDESに特化して、最先端の依存関係をトレーニングします。
子どもの相互作用における構文パターンをより正確に捉え、既成の英語を話す人よりも優れています。
- 参考スコア(独自算出の注目度): 12.606764306204278
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: CHILDES is a paramount resource for language acquisition studies -- yet computational tools for analyzing its syntactic structure remain limited. Leveraging the recent release of the UD-English-CHILDES treebank with gold-standard Universal Dependencies (UD) annotations, we train a state-of-the-art dependency parser specifically tailored to CHILDES. The parser more accurately captures syntactic patterns in child--adult interactions, outperforming widely used off-the-shelf English parsers, including SpaCy and Stanza. Alongside the parser, we also release a Part-of-Speech tagger and an utterance-level construction tagger, which together form the open-source Syntactic Parsing Toolkit for Child--Adult InTeractions (CAIT). Through a detailed error analysis and a case study tracking the distribution of syntactic constructions across developmental time in CHILDES, we demonstrate the practical utility of the toolkit for large-scale, reproducible research on language acquisition.
- Abstract(参考訳): CHILDESは言語習得研究の最も重要なリソースだが、構文構造を分析するための計算ツールはまだ限られている。
最近リリースされたUD- English-ChiLDESツリーバンクに、ゴールドスタンダードのUniversal Dependencies(UD)アノテーションを導入して、ChiLDESに特化して、最先端の依存性パーサをトレーニングします。
パーサーは、子供と大人の相互作用における構文パターンをより正確に捉え、SpaCyやStanzaなどの既成の英語パーサーよりも優れている。
パーサの他に、Part-of-Speechタグと、発話レベルのコンストラクションタグもリリースしています。
ChiLDESにおける詳細なエラー解析と,発達段階における構文構成の分布を追跡するケーススタディを通じて,大規模かつ再現可能な言語習得研究のためのツールキットの実用性を実証した。
関連論文リスト
- Syntax as a Rosetta Stone: Universal Dependencies for In-Context Coptic Translation [6.070010259231488]
本稿では,コプト語から英語への低リソース機械翻訳を支援する新しい文脈内学習手法を提案する。
本研究の結果から,構文情報だけでは辞書のグルースほど有用ではないが,検索した辞書項目と構文情報を組み合わせることで,モデルサイズ間で大きな利得が得られることがわかった。
論文 参考訳(メタデータ) (2026-04-20T19:07:32Z) - What Exactly do Children Receive in Language Acquisition? A Case Study on CHILDES with Automated Detection of Filler-Gap Dependencies [6.664280746895124]
本稿では,英語コーパスにおける3つのコアフィラーギャップ構造を同定するシステムを提案する。
人間の注釈付きデータに基づいてシステムを検証した結果、ほとんどのカテゴリで良いスコアが得られた。
結果として得られたきめ細かいラベルは、獲得研究と計算研究の両方において将来の研究を可能にする。
論文 参考訳(メタデータ) (2026-03-02T17:03:51Z) - Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [56.61984030508691]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。
混乱点(CP)がこの現象の中心であることを示す。
比較分析によって同定された少数の臨界ニューロンを多言語で調整したニューロンで編集すると、混乱が著しく軽減されることがわかった。
論文 参考訳(メタデータ) (2025-05-22T11:29:17Z) - Integrating Supertag Features into Neural Discontinuous Constituent Parsing [0.0]
伝統的な選挙区の見解では、構成要素は隣接した単語で構成されており、ドイツ語のような言語で一般的である。
トランジションベースの構文解析は、大きな注釈付きコーパス上で教師あり学習を用いて生のテキストを入力した木を生成する。
論文 参考訳(メタデータ) (2024-10-11T12:28:26Z) - A Tale of Two Languages: Large-Vocabulary Continuous Sign Language Recognition from Spoken Language Supervision [74.972172804514]
我々は,署名された言語と音声のテキスト間の共同埋め込み空間において,署名シーケンスと出力を抽出できるマルチタスクトランスフォーマーモデルCSLR2を導入する。
新しいデータセットアノテーションは、6時間のテストビデオに対して、連続的なサインレベルアノテーションを提供する。
私たちのモデルは、両方のタスクにおいて、過去の技術状況よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-16T17:19:06Z) - Syntactic Language Change in English and German: Metrics, Parsers, and Convergences [56.47832275431858]
本論文は,過去160年間の議会討論のコーパスを用いて,英語とドイツ語の統語的言語変化のダイアクロニックな傾向を考察する。
私たちは、広く使われているStanford Coreと、新しい4つの選択肢を含む5つの依存関係をベースとしています。
文長分布の尾部では,構文的尺度の変化が頻繁であることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-18T11:46:16Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z) - GATE: Graph Attention Transformer Encoder for Cross-lingual Relation and
Event Extraction [107.8262586956778]
言語に依存しない文表現を学習するために、普遍的な依存解析を伴うグラフ畳み込みネットワーク(GCN)を導入する。
GCNは、長い範囲の依存関係を持つ単語をモデル化するのに苦労する。
そこで本研究では,構文的距離の異なる単語間の依存関係を学習するための自己認識機構を提案する。
論文 参考訳(メタデータ) (2020-10-06T20:30:35Z) - The Grammar of Emergent Languages [19.17358904009426]
UGI技術は創発的言語を解析するのに適していることを示す。
次に、典型的な参照ゲーム設定に現れる言語が構文構造を示すかどうかを考察する。
我々の実験は、構造が現れるためには、一定のメッセージ長と語彙サイズが必要であることを実証した。
論文 参考訳(メタデータ) (2020-10-05T15:06:27Z) - Fine-Grained Analysis of Cross-Linguistic Syntactic Divergences [18.19093600136057]
並列コーパスから任意の言語対の発散パターンを抽出するフレームワークを提案する。
我々のフレームワークは、言語間の相違の詳細な図を提供し、以前のアプローチを一般化し、完全に自動化することを示します。
論文 参考訳(メタデータ) (2020-05-07T13:05:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。