論文の概要: Baby's CoThought: Leveraging Large Language Models for Enhanced
Reasoning in Compact Models
- arxiv url: http://arxiv.org/abs/2308.01684v2
- Date: Mon, 23 Oct 2023 12:05:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 08:01:12.075573
- Title: Baby's CoThought: Leveraging Large Language Models for Enhanced
Reasoning in Compact Models
- Title(参考訳): BabyのCoThought:コンパクトモデルにおける推論強化のための大規模言語モデルの活用
- Authors: Zheyu Zhang, Han Yang, Bolei Ma, David R\"ugamer, Ercong Nie
- Abstract要約: より小さな"ベイビー"言語モデル(BabyLM)を効率的に学習する"CoThought"パイプラインを提案する。
我々のパイプラインは、GPT-3.5-turboを使って1億以下のデータセットを再構成し、タスク指向のヒューマン可読テキストに変換する。
私たちのBabyLMは、言語、NLU、質問応答タスクにおいて、バニラRoBERTaよりも3ポイント以上優れています。
- 参考スコア(独自算出の注目度): 3.1244568065126863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) demonstrate remarkable performance on a variety
of natural language understanding (NLU) tasks, primarily due to their
in-context learning ability. This ability could be applied to building babylike
models, i.e. models at small scales, improving training efficiency. In this
paper, we propose a "CoThought" pipeline, which efficiently trains smaller
"baby" language models (BabyLMs) by leveraging the Chain of Thought prompting
of LLMs. Our pipeline restructures a dataset of less than 100M in size using
GPT-3.5-turbo, transforming it into task-oriented, human-readable texts that
are comparable to the school texts for language learners. The BabyLM is then
pretrained on this restructured dataset in a RoBERTa fashion. In evaluations
across 4 benchmarks, our BabyLM outperforms the vanilla RoBERTa in 10
linguistic, NLU, and question-answering tasks by more than 3 points, showing a
superior ability to extract contextual information. These results suggest that
compact LMs pretrained on small, LLM-restructured data can better understand
tasks and achieve improved performance.
- Abstract(参考訳): 大規模言語モデル(llm)は、さまざまな自然言語理解(nlu)タスクにおいて、主にコンテキスト内学習能力によって、驚くべきパフォーマンスを示している。
この能力は、小さなスケールでモデルを構築すること、訓練効率を向上させるために応用できる。
本稿では,llmの思考促進の連鎖を利用して,より小さな"baby"言語モデル(babylms)を効率的に学習する"cothought"パイプラインを提案する。
我々のパイプラインは、GPT-3.5-turboを用いて、100M未満のデータセットを再構成し、言語学習者の学校テキストに匹敵するタスク指向の人間可読テキストに変換する。
BabyLMはRoBERTa方式で、この再構成データセットで事前トレーニングされる。
4つのベンチマークで評価したところ、BabyLMは10の言語、NLU、質問応答タスクにおいてバニラRoBERTaを3ポイント以上上回り、文脈情報を抽出する優れた能力を示している。
これらの結果から,LLM再構成データ上に事前訓練されたコンパクトなLMは,タスクをよりよく理解し,性能を向上できる可能性が示唆された。
関連論文リスト
- TituLLMs: A Family of Bangla LLMs with Comprehensive Benchmarking [6.070192392563392]
1B と 3B のパラメータサイズで最初の大容量バングラ LLM である TituLLMs を提示する。
TituLLMsをトレーニングするために、約37億トークンの事前トレーニングデータセットを収集しました。
我々はLlama-3.2トークンを言語や文化固有の知識に組み込むように拡張した。
論文 参考訳(メタデータ) (2025-02-16T16:22:23Z) - BabyLMs for isiXhosa: Data-Efficient Language Modelling in a Low-Resource Context [2.57490464660469]
BabyLMの課題は、参加者にサンプル効率の良い言語モデルを開発することであった。
申請は、子供が開発中に露出する単語の量に制限される、固定された英語コーパスで事前訓練された。
データ効率のよい言語モデリングのための新しいアーキテクチャは、数兆ワードで訓練されたモデルよりも優れていた。
論文 参考訳(メタデータ) (2025-01-07T15:13:45Z) - TinyHelen's First Curriculum: Training and Evaluating Tiny Language Models in a Simpler Language Environment [30.93798042712827]
トレーニング言語モデル(LM)とそのアプリケーションエージェントは、大規模なデータセットとモデルのために、ますますコストがかかる。
ノイズを排除し、語彙を最小化し、ジャンル固有のパターンを維持することで、テキストデータを洗練するためのパイプラインを提案する。
実験により,ランダー事前学習がLM学習効率を向上させることが示された。
論文 参考訳(メタデータ) (2024-12-31T16:08:15Z) - TriSum: Learning Summarization Ability from Large Language Models with Structured Rationale [66.01943465390548]
本稿では,大規模言語モデルのテキスト要約能力を,コンパクトで局所的なモデルに抽出するフレームワークであるTriSumを紹介する。
本手法は,様々なベンチマーク上での局所モデル性能を向上させる。
また、要約の合理性に関する洞察を提供することで、解釈可能性も向上する。
論文 参考訳(メタデータ) (2024-03-15T14:36:38Z) - Learning to Reduce: Optimal Representations of Structured Data in
Prompting Large Language Models [42.16047343029512]
大規模言語モデル(LLM)は汎用AIエージェントとして広く利用されている。
本稿では,入力コンテキストの縮小バージョンを生成するために,言語モデルを微調整するフレームワークであるLearning to Reduceを提案する。
入力コンテキストから関連する証拠を選択する際に,本モデルが同等の精度を達成することを示す。
論文 参考訳(メタデータ) (2024-02-22T00:41:23Z) - Pre-training LLMs using human-like development data corpus [3.5757761767474876]
我々は,子どもが見るのとほぼ同じ数のトークンを用いて,文脈的単語表現を学習する能力について,LLM(Large Language Models)を事前訓練し評価する。
異なるアーキテクチャで、エポック間のパフォーマンスの変化を評価し、タスクの厳密で厳密なトラックに対する事前トレーニングメトリクスを報告します。
論文 参考訳(メタデータ) (2023-11-08T13:13:23Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling Capacities of Large Language Models [141.21603469555225]
大規模言語モデル(LLM)は、通常の長さのNLPタスクよりも劇的な熟練を実現している。
マルチタスク長コンテキストベンチマークであるBAMBOOを提案する。
5つの異なる長いテキスト理解タスクから10のデータセットで構成されている。
論文 参考訳(メタデータ) (2023-09-23T11:36:15Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。