Fugu-MT 論文翻訳(概要): Findings of the Second BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora

論文の概要: Findings of the Second BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora

arxiv url: http://arxiv.org/abs/2412.05149v1
Date: Fri, 06 Dec 2024 16:06:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-09 22:41:41.182405
Title: Findings of the Second BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora
Title（参考訳）: 第2回 BabyLM チャレンジの発見: 発達的可塑性コーパス上でのサンプル有効プレトレーニング
Authors: Michael Y. Hu, Aaron Mueller, Candace Ross, Adina Williams, Tal Linzen, Chengxu Zhuang, Ryan Cotterell, Leshem Choshen, Alex Warstadt, Ethan Gotlieb Wilcox,
Abstract要約: BabyLM Challengeは、人間と計算言語学習者のデータ効率ギャップを埋めるためのコミュニティの取り組みである。参加者は1億ワード以下の固定言語データ予算で、言語モデルトレーニングを最適化するために競争する。
参考スコア（独自算出の注目度）: 79.03392191805028
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The BabyLM Challenge is a community effort to close the data-efficiency gap between human and computational language learners. Participants compete to optimize language model training on a fixed language data budget of 100 million words or less. This year, we released improved text corpora, as well as a vision-and-language corpus to facilitate research into cognitively plausible vision language models. Submissions were compared on evaluation tasks targeting grammatical ability, (visual) question answering, pragmatic abilities, and grounding, among other abilities. Participants could submit to a 10M-word text-only track, a 100M-word text-only track, and/or a 100M-word and image multimodal track. From 31 submissions employing diverse methods, a hybrid causal-masked language model architecture outperformed other approaches. No submissions outperformed the baselines in the multimodal track. In follow-up analyses, we found a strong relationship between training FLOPs and average performance across tasks, and that the best-performing submissions proposed changes to the training data, training objective, and model architecture. This year's BabyLM Challenge shows that there is still significant room for innovation in this setting, in particular for image-text modeling, but community-driven research can yield actionable insights about effective strategies for small-scale language modeling.
Abstract（参考訳）: BabyLM Challengeは、人間と計算言語学習者のデータ効率ギャップを埋めるためのコミュニティの取り組みである。参加者は1億ワード以下の固定言語データ予算で、言語モデルトレーニングを最適化するために競争する。今年は、認知可能な視覚言語モデルの研究を促進するために、改良されたテキストコーパスと、視覚・言語コーパスをリリースしました。課題は, 文法能力, 視覚的) 質問応答, 実用的能力, 基礎的能力などを対象とした評価課題について比較した。参加者は10Mワードのテキストのみのトラック、100Mワードのテキストのみのトラック、および/または100Mワードと画像のマルチモーダルトラックを提出できる。多様な手法を用いた31の提案から、ハイブリッド因果行列型言語モデルアーキテクチャは、他のアプローチよりも優れていた。提案はマルチモーダルトラックのベースラインを上回りませんでした。フォローアップ分析では、FLOPのトレーニングとタスク間の平均パフォーマンスの相関が強く、最高のパフォーマンスの応募がトレーニングデータ、トレーニング目標、モデルアーキテクチャの変更を提案した。今年のBabyLM Challengeは、特に画像テキストモデリングでは、この環境ではまだイノベーションの余地があることを示しているが、コミュニティ主導の研究は、小規模言語モデリングの効果的な戦略に関する実用的な洞察を得ることができる。

関連論文リスト

Findings of the BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora [84.03928547166873]
子どもたちは1億ワード未満の入力から言語を習得できる。大規模な言語モデルはデータ効率がはるかに低く、通常は3～4桁以上のデータを必要とするが、多くの評価において人間ほど性能は高くない。 BabyLM Challengeは、参加者が固定データ予算で言語モデルトレーニングを最適化するために競う共同作業である。
論文参考訳（メタデータ） (2025-04-10T23:22:43Z)
Towards Data-Efficient Language Models: A Child-Inspired Approach to Language Learning [2.565964707090901]
我々は,従来の大規模言語モデル (LLM) と比較して,データ量が大幅に少ない様々な言語モデル(LM)を訓練する手法を用いている。そこで本研究では,主に児童向け文字起こしから得られた1000万語からなるキュレートデータセットに基づいて学習したモデルを構築した。我々は語彙を32,000のトークンに減らし、言語習得の初期段階の子供たちの限られた語彙と整合させる。
論文参考訳（メタデータ） (2025-03-06T16:57:26Z)
LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文参考訳（メタデータ） (2024-06-24T03:36:29Z)
Acquiring Linguistic Knowledge from Multimodal Input [10.965306219502303]
子どもとは対照的に、言語モデル(LM)は言語習得時のデータ効率が著しく劣っている。我々は、このデータ効率ギャップは、典型的な言語モデルの学習環境におけるマルチモーダル入力の欠如と基礎化によって生じるという仮説を検証した。
論文参考訳（メタデータ） (2024-02-27T23:29:10Z)
Integrating Self-supervised Speech Model with Pseudo Word-level Targets from Visually-grounded Speech Model [57.78191634042409]
擬似単語レベルのターゲットを学習プロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。 4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。
論文参考訳（メタデータ） (2024-02-08T16:55:21Z)
CLIMB: Curriculum Learning for Infant-inspired Model Building [6.4766496232839685]
本稿では,BabyLM ChallengeのSTRICT-SMALLトラックへのチームの貢献について述べる。課題は、1000万ワードの比較的小さなトレーニングデータセットを使用して、言語モデルをゼロからトレーニングすることである。認知に動機づけられたカリキュラム学習の3つの変種を実験し,そのモデルの性能に及ぼす影響を解析した。
論文参考訳（メタデータ） (2023-11-15T11:48:16Z)
Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか? 本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文参考訳（メタデータ） (2023-10-20T03:33:36Z)
LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset, Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文参考訳（メタデータ） (2023-06-11T14:01:17Z)
Grounding Language Models to Images for Multimodal Inputs and Outputs [89.30027812161686]
本稿では,事前学習したテキストのみの言語モデルを視覚領域に最適化する効率的な手法を提案する。任意にインターリーブされた画像とテキストデータを処理し、検索した画像とインターリーブされたテキストを生成する。
論文参考訳（メタデータ） (2023-01-31T18:33:44Z)
Call for Papers -- The BabyLM Challenge: Sample-efficient pretraining on a developmentally plausible corpus [32.51325830633226]
BabyLM Challenge: 発達可能なコーパス上でのサンプル効率事前学習のための論文の募集を行う。この共有タスクは、小規模言語モデリング、ヒューマン言語獲得、低リソースNLP、認知モデリングに関心を持つ参加者を対象としている。
論文参考訳（メタデータ） (2023-01-27T15:52:50Z)
OmDet: Large-scale vision-language multi-dataset pre-training with multimodal detection network [17.980765138522322]
この研究は、新しい言語対応のオブジェクト検出アーキテクチャであるOmDetを紹介した。自然言語を普遍的な知識表現として活用することで、OmDetは多様なデータセットから"視覚語彙"を蓄積する。我々は,OmDetが野生におけるオブジェクト検出,オープンボキャブラリ検出,句接地において,強いベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2022-09-10T14:25:14Z)
LICHEE: Improving Language Model Pre-training with Multi-grained Tokenization [19.89228774074371]
本稿では,入力テキストの多粒度情報を効率的に組み込むための,シンプルで効果的な事前学習手法であるlicHEEを提案する。本手法は,様々な事前学習言語モデルに適用でき,その表現能力を向上させることができる。
論文参考訳（メタデータ） (2021-08-02T12:08:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。