論文の概要: Automatic Annotation of Grammaticality in Child-Caregiver Conversations
- arxiv url: http://arxiv.org/abs/2403.14208v1
- Date: Thu, 21 Mar 2024 08:00:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 15:07:37.455821
- Title: Automatic Annotation of Grammaticality in Child-Caregiver Conversations
- Title(参考訳): 子どもと子どもの会話における文法的意味の自動アノテーション
- Authors: Mitja Nikolaus, Abhishek Agrawal, Petros Kaklamanis, Alex Warstadt, Abdellah Fourtassi,
- Abstract要約: この研究は、子どもの言語習得を大規模に研究する上で、最先端のNLP手法の適用に関する文献の増大に寄与する。
本稿では,文脈依存型文法の符号化手法を提案し,大規模な会話コーパスから4,000以上の発話を注釈付けする。
以上の結果から,微調整トランスフォーマーを用いたモデルでは,人間間のアノテーション合意レベルを達成できる可能性が示唆された。
- 参考スコア(独自算出の注目度): 7.493963534076502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The acquisition of grammar has been a central question to adjudicate between theories of language acquisition. In order to conduct faster, more reproducible, and larger-scale corpus studies on grammaticality in child-caregiver conversations, tools for automatic annotation can offer an effective alternative to tedious manual annotation. We propose a coding scheme for context-dependent grammaticality in child-caregiver conversations and annotate more than 4,000 utterances from a large corpus of transcribed conversations. Based on these annotations, we train and evaluate a range of NLP models. Our results show that fine-tuned Transformer-based models perform best, achieving human inter-annotation agreement levels.As a first application and sanity check of this tool, we use the trained models to annotate a corpus almost two orders of magnitude larger than the manually annotated data and verify that children's grammaticality shows a steady increase with age.This work contributes to the growing literature on applying state-of-the-art NLP methods to help study child language acquisition at scale.
- Abstract(参考訳): 文法の習得は、言語習得の理論の間を判断する中心的な問題となっている。
子どもと介護者の会話における文法性に関する、より速く、再現性が高く、より大規模なコーパス研究を行うために、自動アノテーションのツールは、退屈な手書きアノテーションに代わる効果的な代替手段を提供することができる。
本研究では,子どもと介護者の会話における文脈依存文法の符号化手法を提案し,大規模な会話コーパスから4,000以上の発話を注釈付けする。
これらのアノテーションに基づいて,NLPモデルの訓練と評価を行う。
本研究は,微調整トランスフォーマーを用いたモデルが,人間間のアノテーション合意レベルを達成し,優れた性能を発揮することを示し,本ツールの第一の応用および健全性チェックとして,トレーニングされたモデルを用いて,手作業によるアノテートデータよりも約2桁大きなコーパスをアノテートし,子どもの文法性が年齢とともに着実に向上していることを確認する。この研究は,子どもの言語習得を大規模に研究する上で,最先端のNLP手法の適用に関する文献の増大に寄与する。
関連論文リスト
- Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - BabySLM: language-acquisition-friendly benchmark of self-supervised
spoken language models [56.93604813379634]
音声表現を学習するための自己指導技術は、人間のラベルを必要とせずに、音声への露出から言語能力を高めることが示されている。
語彙および構文レベルで音声言語モデルを探索するために,言語習得に親しみやすいベンチマークを提案する。
テキストと音声のギャップを埋めることと、クリーンな音声とその内話のギャップを埋めることである。
論文 参考訳(メタデータ) (2023-06-02T12:54:38Z) - TaDSE: Template-aware Dialogue Sentence Embeddings [27.076663644996966]
一般的な文埋め込み法は、通常、文レベルの自己管理フレームワークであり、トークンレベルの余分な知識を利用できない。
TaDSEは、各文を対応するテンプレートで拡張し、文とテンプレートの両方に対してペアワイズにコントラスト学習を行う。
実験結果から,TaDSEは従来のSOTA法よりも大幅に改善され,一貫した初期分類タスク性能改善のマージンが得られた。
論文 参考訳(メタデータ) (2023-05-23T17:40:41Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Training Effective Neural Sentence Encoders from Automatically Mined
Paraphrases [0.0]
そこで本稿では,手動でラベル付けしたデータを用いずに,効果的な言語固有文エンコーダを訓練する手法を提案する。
本研究の目的は,文の一致したバイリンガルテキストコーパスからパラフレーズペアのデータセットを自動構築することである。
文エンコーダは1枚のグラフィックカードで1日以内で訓練でき、多種多様な文レベルのタスクで高い性能を達成できる。
論文 参考訳(メタデータ) (2022-07-26T09:08:56Z) - Towards Generalized Models for Task-oriented Dialogue Modeling on Spoken
Conversations [22.894541507068933]
本稿では,DSTC-10の音声対話課題における知識ベースタスク指向対話モデリングのための一般化モデルの構築について述べる。
我々は,人工誤り注入やラウンドトリップ音声変換など,手書きデータに対する広範なデータ拡張戦略を採用している。
本手法は, 客観的評価では3位, 最終公式評価では2位である。
論文 参考訳(メタデータ) (2022-03-08T12:26:57Z) - Word Acquisition in Neural Language Models [0.38073142980733]
ニューラルネットワークモデルは,学習中に個々の単語を習得し,学習曲線を抽出し,600以上の単語の獲得年齢を推定する。
子どもや言語モデルでは, 具体性, 単語長, 語彙クラスの影響が顕著に異なることがわかった。
論文 参考訳(メタデータ) (2021-10-05T23:26:16Z) - Syntax-Enhanced Pre-trained Model [49.1659635460369]
BERTやRoBERTaなどの学習済みモデルを強化するために、テキストの構文構造を活用するという問題を研究する。
既存の手法では、事前学習段階または微調整段階のいずれかでテキストの構文を利用しており、両者の区別に苦しむ。
事前学習と微調整の両方の段階でテキストのシンタックスを利用するモデルを提示する。
論文 参考訳(メタデータ) (2020-12-28T06:48:04Z) - Using Machine Learning and Natural Language Processing Techniques to
Analyze and Support Moderation of Student Book Discussions [0.0]
IMapBookプロジェクトは、小学生のリテラシー向上と理解能力向上を目的として、インタラクティブな電子書籍を提示し、中途半端な本議論に参加することを目的としている。
本研究の目的は、メッセージ分類に対する機械学習ベースのアプローチを開発し、介入の必要性を議論モデレーターに自動的に通知し、進行中の議論に関する他の有用な情報を収集することである。
論文 参考訳(メタデータ) (2020-11-23T20:33:09Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。