論文の概要: Autonomous Data Selection with Language Models for Mathematical Texts
- arxiv url: http://arxiv.org/abs/2402.07625v3
- Date: Mon, 28 Oct 2024 22:08:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:38:22.801003
- Title: Autonomous Data Selection with Language Models for Mathematical Texts
- Title(参考訳): 数学的テキストのための言語モデルを用いた自律的データ選択
- Authors: Yifan Zhang, Yifan Luo, Yang Yuan, Andrew Chi-Chih Yao,
- Abstract要約: 自律的なデータ選択に基礎言語モデルを活用する新しい戦略を導入する。
提案手法では,メタプロンプト言語モデルをゼロショット検証器として利用し,高品質な数学的コンテンツを自律的に評価・選択する。
本手法は,最先端のベースラインに比べて,トークンの事前学習効率が2倍に向上したことを示す。
- 参考スコア(独自算出の注目度): 13.789739307267952
- License:
- Abstract: To improve language models' proficiency in mathematical reasoning via continual pretraining, we introduce a novel strategy that leverages base language models for autonomous data selection. Departing from conventional supervised fine-tuning or trained classifiers with human-annotated data, our approach Autonomous Data Selection (AutoDS) utilizes meta-prompted language models as zero-shot verifiers to evaluate and select high-quality mathematical content autonomously. To demonstrate the efficacy of our method, we continuously pretrained a 7B-parameter language model on our curated dataset, achieving substantial improvements in downstream performance on the MATH, GSM8K, and BIG-Bench Hard (BBH) tasks with a token amount reduced by orders of magnitude compared to previous continual pretraining works. Our method showcases a 2 times increase in pretraining token efficiency compared to state-of-the-art baselines, underscoring the potential of our approach in enhancing models' mathematical reasoning capabilities. The AutoMathText dataset is available at https://huggingface.co/datasets/math-ai/AutoMathText. The code is available at https://github.com/yifanzhang-pro/AutoMathText.
- Abstract(参考訳): 連続的事前学習による数学的推論における言語モデルの習熟度を向上させるために,基本言語モデルを自律的データ選択に活用する新たな戦略を導入する。
従来の教師付き微調整・訓練型分類器と人間の注釈付きデータとを分離し,メタプロンプト言語モデルをゼロショット検証器として利用し,高品質な数学的コンテンツを自律的に評価・選択する。
提案手法の有効性を示すため, 提案手法では, 7Bパラメトリ言語モデルをキュレートデータセット上で継続的に事前学習し, MATH, GSM8K, BIG-Bench Hard (BBH) タスクのダウンストリーム性能を, 従来の継続事前学習作業に比べて桁違いに低減したトークン量で大幅に改善した。
提案手法は, モデルの数学的推論能力向上におけるアプローチの可能性について, 最先端のベースラインと比較して, トークンの事前学習効率を2倍に向上させることを示す。
AutoMathTextデータセットはhttps://huggingface.co/datasets/math-ai/AutoMathTextで公開されている。
コードはhttps://github.com/yifanzhang-pro/AutoMathTextで入手できる。
関連論文リスト
- Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。
提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。
当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-07-13T05:03:26Z) - Evaluating Factual Consistency of Texts with Semantic Role Labeling [3.1776833268555134]
本稿では,テキスト要約を念頭に設計した参照不要評価指標SRLScoreを紹介する。
最終事実度スコアは、調整可能なスコアリング機構により算出される。
英語の要約データセットにおける人間の判断との相関は、SRLScoreが最先端の手法と競合していることを示している。
論文 参考訳(メタデータ) (2023-05-22T17:59:42Z) - Automatic Short Math Answer Grading via In-context Meta-learning [2.0263791972068628]
本研究では,数学質問に対する児童生徒の回答に対する自動短解格付けの問題について検討する。
我々は、数学的な内容に適応した人気のある言語モデルBERTの変種である MathBERT をベースモデルとして使用しています。
第二に、言語モデルへの入力としてスコアリングサンプルを提供する、コンテキスト内学習アプローチを用いる。
論文 参考訳(メタデータ) (2022-05-30T16:26:02Z) - Syntax-Aware Network for Handwritten Mathematical Expression Recognition [53.130826547287626]
手書き数式認識(HMER)は、多くの潜在的な応用が可能な課題である。
HMERの最近の手法はエンコーダ・デコーダアーキテクチャで優れた性能を実現している。
本稿では,構文情報をエンコーダ・デコーダネットワークに組み込んだHMERの簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-03-03T09:57:19Z) - Neuro-Symbolic Language Modeling with Automaton-augmented Retrieval [129.25914272977542]
RetoMatonはデータストア上に構築された重み付き有限オートマトンである。
LM推論と並行して、このオートマトンを推論時にトラバースすることは、その複雑さを減少させる。
論文 参考訳(メタデータ) (2022-01-28T21:38:56Z) - Benchmarking Multimodal AutoML for Tabular Data with Text Fields [83.43249184357053]
テキストフィールドを含む18個のマルチモーダルデータテーブルを組み立てる。
このベンチマークにより、研究者は、数値的、分類的、テキスト的特徴を用いて教師あり学習を行うための独自の方法を評価することができる。
論文 参考訳(メタデータ) (2021-11-04T09:29:16Z) - Detecting Handwritten Mathematical Terms with Sensor Based Data [71.84852429039881]
本稿では,手書きの数学的用語を自動分類する,スタビロによるUbiComp 2021チャレンジの解を提案する。
入力データセットには異なるライターのデータが含まれており、ラベル文字列は合計15の異なる文字から構成されている。
論文 参考訳(メタデータ) (2021-09-12T19:33:34Z) - Privileged Zero-Shot AutoML [16.386335031156]
この作業は、データセットと関数記述を使用することで、自動機械学習(AutoML)システムの品質を改善する。
ゼロショットのAutoMLは、実行時間と予測時間を数分からミリ秒に短縮する。
論文 参考訳(メタデータ) (2021-06-25T16:31:05Z) - LaTeX-Numeric: Language-agnostic Text attribute eXtraction for
E-commerce Numeric Attributes [0.25782420501870296]
製品テキストから電子商取引の数値属性を抽出するための高精度な全自動スケーラブルフレームワークを提案する。
属性データの欠落ラベルを扱うマルチタスクアーキテクチャを提案し,単一タスクアーキテクチャ上の数値属性に対して9.2%のF1改善を実現した。
属性値を用いたエイリアス自動生成アルゴリズムを提案し,20.2%のF1改善を実現した。
論文 参考訳(メタデータ) (2021-04-19T19:14:32Z) - Data Augmentation in Natural Language Processing: A Novel Text
Generation Approach for Long and Short Text Classifiers [8.19984844136462]
本稿では,長文と短文の分類器の性能向上に適したテキスト生成手法を提案し,評価する。
シミュレーションされた低データレギュレーションでは、最大15.53%の加算精度ゲインが達成される。
さまざまな種類のデータセットに対するアプローチを成功に導くための意味とパターンについて議論します。
論文 参考訳(メタデータ) (2021-03-26T13:16:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。