論文の概要: BabyLM Turns 4 and Goes Multilingual: Call for Papers for the 2026 BabyLM Workshop
- arxiv url: http://arxiv.org/abs/2602.20092v2
- Date: Tue, 24 Feb 2026 17:51:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 15:32:50.757628
- Title: BabyLM Turns 4 and Goes Multilingual: Call for Papers for the 2026 BabyLM Workshop
- Title(参考訳): BabyLMが4歳からマルチ言語に:2026年のBabyLMワークショップの論文募集
- Authors: Leshem Choshen, Ryan Cotterell, Mustafa Omer Gul, Jaap Jumelet, Tal Linzen, Aaron Mueller, Suchir Salhan, Raj Sanjay Shah, Alex Warstadt, Ethan Gotlieb Wilcox,
- Abstract要約: BabyLMの目的は、認知モデルと言語モデル事前学習の間の新しい研究関係を刺激することである。
今年は、英語、オランダ語、中国語に重点を置いた、新しいトラックで、これまでの英語のみの事前トレーニングデータセットを超えています。
ワークショップでは、トレーニング効率、小規模トレーニングデータセット、認知モデリング、モデル評価、アーキテクチャ革新などを含むBabyLMの全体的なテーマに関する論文を募集する。
- 参考スコア(独自算出の注目度): 73.0356575273869
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of the BabyLM is to stimulate new research connections between cognitive modeling and language model pretraining. We invite contributions in this vein to the BabyLM Workshop, which will also include the 4th iteration of the BabyLM Challenge. As in previous years, the challenge features two ``standard'' tracks (Strict and Strict-Small), in which participants must train language models on under 100M or 10M words of data, respectively. This year, we move beyond our previous English-only pretraining datasets with a new Multilingual track, focusing on English, Dutch, and Chinese. For the workshop, we call for papers related to the overall theme of BabyLM, which includes training efficiency, small-scale training datasets, cognitive modeling, model evaluation, and architecture innovation.
- Abstract(参考訳): BabyLMの目的は、認知モデルと言語モデル事前学習の間の新しい研究関係を刺激することである。
私たちは、BabyLM Challengeの4回目のイテレーションを含むBabyLM Workshopに、この流れへのコントリビューションを招待します。
前年と同様に、「標準」の2つのトラック(StrictとStrict-Small)があり、参加者はそれぞれ1億ワードまたは1000万ワード以下のデータで言語モデルをトレーニングしなければならない。
今年は、英語、オランダ語、中国語に焦点を当てた、新しい多言語トラックを備えた、これまでの英語のみの事前トレーニングデータセットを超えています。
ワークショップでは、トレーニング効率、小規模トレーニングデータセット、認知モデリング、モデル評価、アーキテクチャ革新などを含むBabyLMの全体的なテーマに関する論文を募集する。
関連論文リスト
- BabyBabelLM: A Multilingual Benchmark of Developmentally Plausible Training Data [30.00078536496021]
BabyBabelLMは、人がネイティブ言語を取得するまで、出生から観察する言語をモデル化するデータセットの集合である。
我々は、45言語毎に1億の英単語をカバーし、発達的に妥当な事前学習データをキュレートする。
論文 参考訳(メタデータ) (2025-10-11T10:50:47Z) - Findings of the BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora [84.03928547166873]
子どもたちは1億ワード未満の入力から言語を習得できる。
大規模な言語モデルはデータ効率がはるかに低く、通常は3~4桁以上のデータを必要とするが、多くの評価において人間ほど性能は高くない。
BabyLM Challengeは、参加者が固定データ予算で言語モデルトレーニングを最適化するために競う共同作業である。
論文 参考訳(メタデータ) (2025-04-10T23:22:43Z) - Towards Data-Efficient Language Models: A Child-Inspired Approach to Language Learning [2.565964707090901]
我々は,従来の大規模言語モデル (LLM) と比較して,データ量が大幅に少ない様々な言語モデル(LM)を訓練する手法を用いている。
そこで本研究では,主に児童向け文字起こしから得られた1000万語からなるキュレートデータセットに基づいて学習したモデルを構築した。
我々は語彙を32,000のトークンに減らし、言語習得の初期段階の子供たちの限られた語彙と整合させる。
論文 参考訳(メタデータ) (2025-03-06T16:57:26Z) - BabyLM Turns 3: Call for papers for the 2025 BabyLM workshop [77.62533643491747]
BabyLMは認知モデリングと言語モデリングの境界を解消することを目的としている。
第3回BabyLMコンペティションに参加するためには,ワークショップ論文と研究者の両方が必要だ。
論文 参考訳(メタデータ) (2025-02-15T02:46:43Z) - BabyLMs for isiXhosa: Data-Efficient Language Modelling in a Low-Resource Context [2.57490464660469]
BabyLMの課題は、参加者にサンプル効率の良い言語モデルを開発することであった。
申請は、子供が開発中に露出する単語の量に制限される、固定された英語コーパスで事前訓練された。
データ効率のよい言語モデリングのための新しいアーキテクチャは、数兆ワードで訓練されたモデルよりも優れていた。
論文 参考訳(メタデータ) (2025-01-07T15:13:45Z) - Findings of the Second BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora [79.03392191805028]
BabyLM Challengeは、人間と計算言語学習者のデータ効率ギャップを埋めるためのコミュニティの取り組みである。
参加者は1億ワード以下の固定言語データ予算で、言語モデルトレーニングを最適化するために競争する。
論文 参考訳(メタデータ) (2024-12-06T16:06:08Z) - A surprisal oracle for when every layer counts [2.5716627278119444]
Active Curriculum Language Modeling (ACLM)は、言語モデルをトレーニングするための学習者指向のアプローチである。
本稿では,BabyLM 2024タスクに対するACLMプロセスの更新を提案する。
論文 参考訳(メタデータ) (2024-12-04T07:53:45Z) - Adapting LLMs to Hebrew: Unveiling DictaLM 2.0 with Enhanced Vocabulary and Instruction Capabilities [2.047424180164312]
Hebrewのような低リソース言語での大規模言語モデル(LLM)のトレーニングには、ユニークな課題がある。
我々はDictaLM2.0とDictaLM2.0-Instructを紹介した。
論文 参考訳(メタデータ) (2024-07-09T17:51:37Z) - [Call for Papers] The 2nd BabyLM Challenge: Sample-efficient pretraining on a developmentally plausible corpus [81.34965784440176]
このCfPはBabyLM Challenge 2024-2025のルールを提供する。
課題の全体的目標は同じままです。
私たちは緩い線を紙の線で置き換える。
事前学習に関するルールを緩和します。
マルチモーダル・ヴィジュアル・アンド・ランゲージ・トラックを導入する。
論文 参考訳(メタデータ) (2024-04-09T11:04:50Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - Tencent AI Lab - Shanghai Jiao Tong University Low-Resource Translation
System for the WMT22 Translation Task [49.916963624249355]
本稿では, Tencent AI Lab - Shanghai Jiao Tong University (TAL-SJTU) Low-Resource Translation system for the WMT22 shared taskについて述べる。
我々は、英語$Leftrightarrow$Livonianの一般的な翻訳作業に参加する。
本システムは,M2M100を対象言語に適応させる新しい手法を用いて構築した。
論文 参考訳(メタデータ) (2022-10-17T04:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。