論文の概要: ChiSCor: A Corpus of Freely Told Fantasy Stories by Dutch Children for
Computational Linguistics and Cognitive Science
- arxiv url: http://arxiv.org/abs/2310.20328v1
- Date: Tue, 31 Oct 2023 10:15:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 15:47:15.694208
- Title: ChiSCor: A Corpus of Freely Told Fantasy Stories by Dutch Children for
Computational Linguistics and Cognitive Science
- Title(参考訳): ChiSCor: オランダの子どもたちによる、計算言語学と認知科学のための無料の幻想物語のコーパス
- Authors: Bram M.A. van Dijk, Max J. van Duijn, Suzan Verberne, Marco R. Spruit
- Abstract要約: オランダの442人の子供たちが4-12歳の子供たちに語った。
ChiSCorの物語は、より生態学的に有効なデータセットを求める最近の要求に従って、自然の文脈で作成された。
ChiSCorは文字の複雑さと言語的な複雑さに対するテキスト、オーディオ、アノテーションをホストしている。
追加のメタデータはオランダの子供の3分の1が利用できる。
ChiSCorには62の英語記事の小さなセットも含まれている。
- 参考スコア(独自算出の注目度): 4.062316786853382
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this resource paper we release ChiSCor, a new corpus containing 619
fantasy stories, told freely by 442 Dutch children aged 4-12. ChiSCor was
compiled for studying how children render character perspectives, and
unravelling language and cognition in development, with computational tools.
Unlike existing resources, ChiSCor's stories were produced in natural contexts,
in line with recent calls for more ecologically valid datasets. ChiSCor hosts
text, audio, and annotations for character complexity and linguistic
complexity. Additional metadata (e.g. education of caregivers) is available for
one third of the Dutch children. ChiSCor also includes a small set of 62
English stories. This paper details how ChiSCor was compiled and shows its
potential for future work with three brief case studies: i) we show that the
syntactic complexity of stories is strikingly stable across children's ages;
ii) we extend work on Zipfian distributions in free speech and show that
ChiSCor obeys Zipf's law closely, reflecting its social context; iii) we show
that even though ChiSCor is relatively small, the corpus is rich enough to
train informative lemma vectors that allow us to analyse children's language
use. We end with a reflection on the value of narrative datasets in
computational linguistics.
- Abstract(参考訳): 本稿では,4歳から12歳までのオランダ人児童442人を対象に,空想小説619話を含む新しいコーパスであるchiscorをリリースする。
ChiSCorは、子どもがキャラクターの視点をどう表現するか、そして言語と発達の認知を計算ツールで表す方法を研究するためにコンパイルされた。
既存のリソースとは異なり、ChiSCorのストーリーは、より生態学的に有効なデータセットを求める最近の要求に従って、自然の文脈で作成された。
ChiSCorは文字の複雑さと言語的な複雑さに対するテキスト、オーディオ、アノテーションをホストしている。
追加メタデータ(例:介護者の教育)はオランダの子供の3分の1が利用できる。
ChiSCorには62の英語記事の小さなセットも含まれている。
本稿では,ChiSCorがどのようにコンパイルされ,今後の研究の可能性を示す。
一 物語の構文的複雑さが子供の年齢にわたって著しく安定していることを示す。
二 自由言論におけるZipfian分布の研究を拡張し、ChiSCorがZipfの法則に密接に従い、その社会的文脈を反映していることを示す。
iii)ChiSCorは比較的小さいが,このコーパスは,子どもの言語使用を分析するための情報レマベクトルを訓練するのに十分な量であることを示す。
最後に,計算言語学におけるナラティブデータセットの価値を考察する。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - A systematic investigation of learnability from single child linguistic input [12.279543223376935]
言語モデル(LM)は言語的に一貫性のあるテキストを生成するのに顕著な能力を示した。
しかし、これらのモデルのトレーニングデータと、子供が受ける言語的入力との間には、大きなギャップがある。
本研究は, 一人の子どもの言語入力のサブセットに基づいて, LMを訓練することに焦点を当てた。
論文 参考訳(メタデータ) (2024-02-12T18:58:58Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Building a Non-native Speech Corpus Featuring Chinese-English Bilingual
Children: Compilation and Rationale [3.924235219960689]
本稿では,5歳から6歳までの中英語児童の物語から成る非母語音声コーパスについて紹介する。
英語(L2)で物語理解テストを受ける子どもの合計6.5時間について,人格スコアや文法的・発音的誤りの注釈とともに紹介する。
子どもたちは中国語(L1)での並行MAIN試験も参照目的に完了した。
論文 参考訳(メタデータ) (2023-04-30T10:41:43Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - TArC: Tunisian Arabish Corpus First complete release [0.0]
我々は、アラビジでエンコードされたチュニジアのアラビア語に関するプロジェクトの最終結果を示す。
このプロジェクトは2つの統合された独立したリソースの創出につながった。
論文 参考訳(メタデータ) (2022-07-11T11:46:59Z) - Mix and Match: An Empirical Study on Training Corpus Composition for
Polyglot Text-To-Speech (TTS) [3.57486761615991]
モノリンガルコーパスのみを用いたマルチリンガルニューラルテキスト音声合成(NTTS)モデルのトレーニングが,音声クローンベースのポリグロットNTTSシステム構築の一般的な方法として登場した。
学習コーパスの構成が多言語音声合成の質にどのように影響するかを理解することが不可欠である。
論文 参考訳(メタデータ) (2022-07-04T15:23:06Z) - The Open corpus of the Veps and Karelian languages: overview and
applications [52.77024349608834]
The Open Corpus of the Veps and Karelian Languages (VepKar)は、2009年に設立されたVepsの拡張である。
VepKarコーパスは、カレリア語とヴェプス語のテキスト、それにリンクされた多機能辞書、高度な検索システムを備えたソフトウェアで構成されている。
今後の計画には、音声録音を扱うための音声モジュールと、形態解析出力を用いた構文タグ付けモジュールの開発が含まれる。
論文 参考訳(メタデータ) (2022-06-08T13:05:50Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z) - The Discussion Tracker Corpus of Collaborative Argumentation [2.800857580710507]
ディベート・トラッカー・コーパスはアメリカ高校の英語の授業で収集された。
コーパスは、985分間の音声から書き起こされた英文学に関する29の多党の議論で構成されている。
論文 参考訳(メタデータ) (2020-05-22T18:27:28Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。