論文の概要: Learning from Child-Directed Speech in Two-Language Scenarios: A French-English Case Study
- arxiv url: http://arxiv.org/abs/2603.12906v1
- Date: Fri, 13 Mar 2026 11:22:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.062734
- Title: Learning from Child-Directed Speech in Two-Language Scenarios: A French-English Case Study
- Title(参考訳): 2言語シナリオにおける子ども向け音声からの学習 : フランス語と英語のケーススタディ
- Authors: Liel Binyamin, Elior Sulem,
- Abstract要約: 我々はBabyBERTaを厳密にサイズマッチングされたデータ条件下で英仏シナリオに拡張する。
構文的タスクと意味的タスクの両方でモデルを評価し、ウィキペディアのみのデータに基づいて訓練されたモデルと比較する。
同様のパターンがBabyBERTa、RoBERTa、LTG-BERTにまたがって現れ、アーキテクチャ間の一貫性のある傾向を示唆している。
- 参考スコア(独自算出の注目度): 2.537875634249757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Research on developmentally plausible language models has largely focused on English, leaving open questions about multilingual settings. We present a systematic study of compact language models by extending BabyBERTa to English-French scenarios under strictly size-matched data conditions, covering monolingual, bilingual, and cross-lingual settings. Our design contrasts two types of training corpora: (i) child-directed speech (about 2.5M tokens), following BabyBERTa and related work, and (ii) multi-domain corpora (about 10M tokens), extending the BabyLM framework to French. To enable fair evaluation, we also introduce new resources, including French versions of QAMR and QASRL, as well as English and French multi-domain corpora. We evaluate the models on both syntactic and semantic tasks and compare them with models trained on Wikipedia-only data. The results reveal context-dependent effects: training on Wikipedia consistently benefits semantic tasks, whereas child-directed speech improves grammatical judgments in monolingual settings. Bilingual pretraining yields notable gains for textual entailment, with particularly strong improvements for French. Importantly, similar patterns emerge across BabyBERTa, RoBERTa, and LTG-BERT, suggesting consistent trends across architectures.
- Abstract(参考訳): 発達的に妥当な言語モデルの研究は、多言語設定に関するオープンな疑問を残し、主に英語に焦点を当てている。
本研究では, 単言語, バイリンガル, クロスリンガル設定を対象とし, 厳密なサイズマッチングデータ条件下でBabyBERTaを英語・フランス語のシナリオに拡張することにより, コンパクト言語モデルの体系的研究を行う。
私たちのデザインは2種類のトレーニングコーパスとは対照的です。
(i)子育て音声(約2.5万通のトークン)、BabyBERTa及びその関連作品
(ii)多ドメインコーパス(約10Mトークン)により、BabyLMフレームワークをフランス語に拡張する。
公平な評価を可能にするため,QAMRとQASRLのフランス語版や,英語とフランス語のマルチドメインコーパスなど,新たなリソースも導入する。
構文的タスクと意味的タスクの両方でモデルを評価し、ウィキペディアのみのデータに基づいて訓練されたモデルと比較する。
その結果、文脈に依存した効果が明らかとなった。ウィキペディアでのトレーニングは、一貫した意味的タスクの恩恵を受け、一方、子供指向のスピーチは、単言語設定における文法的判断を改善する。
バイリンガルの事前訓練は、特にフランス語に強い改良を加えて、テキストのエンターメントに顕著な利益をもたらす。
重要なことに、同様のパターンがBabyBERTa、RoBERTa、LTG-BERTにまたがって現れ、アーキテクチャ間の一貫性のある傾向を示唆している。
関連論文リスト
- Cross-lingual Matryoshka Representation Learning across Speech and Text [9.14632796153174]
我々は、Wolof音声クエリからフランス語テキストの効率的な検索を可能にする、最初のバイリンガル音声テキストMateryoshka埋め込みモデルを訓練する。
学習は検索のみに限られるが、このモデルは音声意図の検出など他のタスクによく当てはまる。
我々は、Matryoshka次元とランクの費用対精度のトレードオフを分析し、情報の集中は少数のコンポーネントに限られていることを示す。
論文 参考訳(メタデータ) (2026-02-23T15:57:16Z) - CroissantLLM: A Truly Bilingual French-English Language Model [42.03897426049679]
英語とフランス語のトークンセットを事前訓練した1.3B言語モデルであるCroissantLLMを紹介する。
我々は、英語とフランス語の事前学習データ比率1:1で、本質的なバイリンガルモデルを訓練するアプローチを開拓した。
英語以外のパフォーマンスを評価するため、新しいベンチマークである FrenchBench を作成します。
論文 参考訳(メタデータ) (2024-02-01T17:17:55Z) - Crosslingual Structural Priming and the Pre-Training Dynamics of
Bilingual Language Models [6.845954748361076]
構造プライミングを用いて、モデル出力に対する因果効果を持つ抽象文法表現をテストする。
オランダ語と英語のバイリンガル設定にアプローチを拡張し,事前学習時のオランダ語と英語のモデルを評価する。
また,第2言語に曝露すると,言語間構造的プライミング効果が早期に出現し,その言語でのデータトークンが100万個未満であることが判明した。
論文 参考訳(メタデータ) (2023-10-11T22:57:03Z) - BUFFET: Benchmarking Large Language Models for Few-shot Cross-lingual
Transfer [81.5984433881309]
本稿では,54言語にまたがる15のタスクをシーケンス・ツー・シーケンス・フォーマットで統一するBUFFETを紹介する。
BUFFETは、数発の言語間移動のための厳密で公平な評価フレームワークを確立するように設計されている。
コンテクスト内言語間移動における改善の余地は極めて大きいことが判明した。
論文 参考訳(メタデータ) (2023-05-24T08:06:33Z) - The Interpreter Understands Your Meaning: End-to-end Spoken Language
Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。
我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。
また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文 参考訳(メタデータ) (2023-05-16T17:53:03Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。