論文の概要: Call for Papers -- The BabyLM Challenge: Sample-efficient pretraining on
a developmentally plausible corpus
- arxiv url: http://arxiv.org/abs/2301.11796v1
- Date: Fri, 27 Jan 2023 15:52:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-30 14:59:49.433249
- Title: Call for Papers -- The BabyLM Challenge: Sample-efficient pretraining on
a developmentally plausible corpus
- Title(参考訳): Call for Papers -- The BabyLM Challenge: 発達可能コーパスにおけるサンプル効率事前学習
- Authors: Alex Warstadt, Leshem Choshen, Aaron Mueller, Adina Williams, Ethan
Wilcox, Chengxu Zhuang
- Abstract要約: BabyLM Challenge: 発達可能なコーパス上でのサンプル効率事前学習のための論文の募集を行う。
この共有タスクは、小規模言語モデリング、ヒューマン言語獲得、低リソースNLP、認知モデリングに関心を持つ参加者を対象としている。
- 参考スコア(独自算出の注目度): 32.51325830633226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the call for papers for the BabyLM Challenge: Sample-efficient
pretraining on a developmentally plausible corpus. This shared task is intended
for participants with an interest in small scale language modeling, human
language acquisition, low-resource NLP, and cognitive modeling. In partnership
with CoNLL and CMCL, we provide a platform for approaches to pretraining with a
limited-size corpus sourced from data inspired by the input to children. The
task has three tracks, two of which restrict the training data to pre-released
datasets of 10M and 100M words and are dedicated to explorations of approaches
such as architectural variations, self-supervised objectives, or curriculum
learning. The final track only restricts the amount of text used, allowing
innovation in the choice of the data, its domain, and even its modality (i.e.,
data from sources other than text is welcome). We will release a shared
evaluation pipeline which scores models on a variety of benchmarks and tasks,
including targeted syntactic evaluations and natural language understanding.
- Abstract(参考訳): 本稿では,babylm challenge: sample- efficient pretraining on a developmentally plausible corpusについて述べる。
この共有タスクは、小規模言語モデリング、人間言語獲得、低リソースnlp、認知モデリングに関心を持つ参加者を対象としている。
CoNLL と CMCL との連携により,子どもへの入力にインスパイアされたデータから得られた限られたサイズのコーパスで事前学習を行うためのプラットフォームを提供する。
このタスクには3つのトラックがあり、そのうち2つはトレーニングデータを10M語と100M語のプレリリースデータセットに制限し、アーキテクチャのバリエーション、自己管理目的、カリキュラム学習といったアプローチの探索に重点を置いている。
最後のトラックは使用するテキストの量のみを制限し、データの選択、そのドメイン、さらにはそのモダリティ(テキスト以外のソースからのデータは歓迎される)の革新を可能にする。
対象とする構文評価や自然言語理解など,さまざまなベンチマークやタスクでモデルをスコア付けする共有評価パイプラインをリリースする予定です。
関連論文リスト
- CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - Selective In-Context Data Augmentation for Intent Detection using
Pointwise V-Information [100.03188187735624]
PLMとPVI(pointwise V-information)に基づく新しい手法を導入し,モデル学習におけるデータポイントの有用性を計測する。
提案手法はまず,学習データの小さなシード上でPLMを微調整し,与えられた意図に対応する発話を新たに生成する。
そこで本手法は,大規模言語モデルの表現力を活用し,多様な学習データを生成する。
論文 参考訳(メタデータ) (2023-02-10T07:37:49Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Leveraging Pre-Trained Language Models to Streamline Natural Language
Interaction for Self-Tracking [25.28975864365579]
本研究では,自己追跡のための新たなNLPタスクを提案する。
このフレームワークは、合成サンプルを使用してタスクを10ショットの学習に変換するプロンプトを強化し、新しいトラッキングトピックをブートストラップする際のコールドスタート問題に対処する。
論文 参考訳(メタデータ) (2022-05-31T01:58:04Z) - ORCA: Interpreting Prompted Language Models via Locating Supporting Data
Evidence in the Ocean of Pretraining Data [38.20984369410193]
大規模な事前訓練された言語モデルは、プロンプトを通じて様々な下流タスクにおいて、ますますよく機能している。
モデルがタスク固有の知識を、特にゼロショット設定でどこで学習するかは、まだ不明である。
この研究では、モデルが事前学習からタスク固有の能力を示す証拠を見つけ、特に事前学習データのごく小さなサブセットを見つけることに興味がある。
論文 参考訳(メタデータ) (2022-05-25T09:25:06Z) - On the Use of External Data for Spoken Named Entity Recognition [40.93448412171246]
近年の自己教師型音声表現の進歩により,ラベル付きデータに制限のある学習モデルを考えることが可能になった。
自己学習、知識蒸留、トランスファーラーニングなど、さまざまなアプローチを採用し、エンドツーエンドモデルとパイプラインアプローチの両方に適用性を検討する。
論文 参考訳(メタデータ) (2021-12-14T18:49:26Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。