論文の概要: Autonomous Data Selection with Zero-shot Generative Classifiers for Mathematical Texts
- arxiv url: http://arxiv.org/abs/2402.07625v5
- Date: Sun, 23 Mar 2025 02:11:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:32:47.161869
- Title: Autonomous Data Selection with Zero-shot Generative Classifiers for Mathematical Texts
- Title(参考訳): ゼロショット生成分類器を用いた数学的テキストの自動データ選択
- Authors: Yifan Zhang, Yifan Luo, Yang Yuan, Andrew Chi-Chih Yao,
- Abstract要約: 本稿では,高品質な数学的テキストを自動的にキュレートする自動データ選択(AutoDS)を提案する。
人間のアノテーションや専用のデータフィルタのトレーニングを必要とする従来のアプローチとは異なり、AutoDSはモデルのロジットのみに依存する。
我々は、自動ドメイン固有データキュレーションの今後の研究を容易にするために、キュレートされたAutoMathTextデータセットをリリースする。
- 参考スコア(独自算出の注目度): 13.789739307267952
- License:
- Abstract: We present Autonomous Data Selection (AutoDS), a method that leverages base language models themselves as zero-shot "generative classifiers" to automatically curate high-quality mathematical texts. Unlike prior approaches that require human annotations or training a dedicated data filter, AutoDS relies solely on a model's logits to determine whether a given passage is mathematically informative and educational. By integrating AutoDS into a continual pretraining pipeline, we substantially boost downstream performance on challenging math benchmarks (MATH, GSM8K, and BBH) while using far fewer tokens than previous methods. Empirically, our approach achieves roughly a twofold improvement in pretraining token efficiency over strong baselines, underscoring the potential of self-directed data selection in enhancing mathematical reasoning. We release our curated AutoMathText dataset to facilitate future research in automated domain-specific data curation. The AutoMathText dataset is available at https://huggingface.co/datasets/math-ai/AutoMathText. The code is available at https://github.com/yifanzhang-pro/AutoMathText.
- Abstract(参考訳): 我々は,基本言語モデル自体をゼロショットの「生成分類器」として活用し,高品質な数学的テキストを自動的にキュレートする自動データ選択(AutoDS)を提案する。
人間のアノテーションや専用のデータフィルタのトレーニングを必要とする従来のアプローチとは異なり、AutoDSは与えられたパスが数学的に情報的かつ教育的なものであるかどうかを決定するために、モデルのロジットのみに依存する。
AutoDSを継続事前トレーニングパイプラインに統合することにより、従来の方法よりもはるかに少ないトークンを使用しながら、挑戦的な数学ベンチマーク(MATH、GSM8K、BBH)のダウンストリーム性能を大幅に向上する。
実験的に,本手法は,強いベースライン上でのトークンの事前学習効率の約2倍の改善を実現し,数学的推論の強化における自己指向データ選択の可能性を強調した。
我々は、自動ドメイン固有データキュレーションの今後の研究を容易にするために、キュレートされたAutoMathTextデータセットをリリースする。
AutoMathTextデータセットはhttps://huggingface.co/datasets/math-ai/AutoMathTextで公開されている。
コードはhttps://github.com/yifanzhang-pro/AutoMathTextで入手できる。
関連論文リスト
- Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。
提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。
当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-07-13T05:03:26Z) - Evaluating Factual Consistency of Texts with Semantic Role Labeling [3.1776833268555134]
本稿では,テキスト要約を念頭に設計した参照不要評価指標SRLScoreを紹介する。
最終事実度スコアは、調整可能なスコアリング機構により算出される。
英語の要約データセットにおける人間の判断との相関は、SRLScoreが最先端の手法と競合していることを示している。
論文 参考訳(メタデータ) (2023-05-22T17:59:42Z) - Automatic Short Math Answer Grading via In-context Meta-learning [2.0263791972068628]
本研究では,数学質問に対する児童生徒の回答に対する自動短解格付けの問題について検討する。
我々は、数学的な内容に適応した人気のある言語モデルBERTの変種である MathBERT をベースモデルとして使用しています。
第二に、言語モデルへの入力としてスコアリングサンプルを提供する、コンテキスト内学習アプローチを用いる。
論文 参考訳(メタデータ) (2022-05-30T16:26:02Z) - Syntax-Aware Network for Handwritten Mathematical Expression Recognition [53.130826547287626]
手書き数式認識(HMER)は、多くの潜在的な応用が可能な課題である。
HMERの最近の手法はエンコーダ・デコーダアーキテクチャで優れた性能を実現している。
本稿では,構文情報をエンコーダ・デコーダネットワークに組み込んだHMERの簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-03-03T09:57:19Z) - Neuro-Symbolic Language Modeling with Automaton-augmented Retrieval [129.25914272977542]
RetoMatonはデータストア上に構築された重み付き有限オートマトンである。
LM推論と並行して、このオートマトンを推論時にトラバースすることは、その複雑さを減少させる。
論文 参考訳(メタデータ) (2022-01-28T21:38:56Z) - Benchmarking Multimodal AutoML for Tabular Data with Text Fields [83.43249184357053]
テキストフィールドを含む18個のマルチモーダルデータテーブルを組み立てる。
このベンチマークにより、研究者は、数値的、分類的、テキスト的特徴を用いて教師あり学習を行うための独自の方法を評価することができる。
論文 参考訳(メタデータ) (2021-11-04T09:29:16Z) - Detecting Handwritten Mathematical Terms with Sensor Based Data [71.84852429039881]
本稿では,手書きの数学的用語を自動分類する,スタビロによるUbiComp 2021チャレンジの解を提案する。
入力データセットには異なるライターのデータが含まれており、ラベル文字列は合計15の異なる文字から構成されている。
論文 参考訳(メタデータ) (2021-09-12T19:33:34Z) - Privileged Zero-Shot AutoML [16.386335031156]
この作業は、データセットと関数記述を使用することで、自動機械学習(AutoML)システムの品質を改善する。
ゼロショットのAutoMLは、実行時間と予測時間を数分からミリ秒に短縮する。
論文 参考訳(メタデータ) (2021-06-25T16:31:05Z) - LaTeX-Numeric: Language-agnostic Text attribute eXtraction for
E-commerce Numeric Attributes [0.25782420501870296]
製品テキストから電子商取引の数値属性を抽出するための高精度な全自動スケーラブルフレームワークを提案する。
属性データの欠落ラベルを扱うマルチタスクアーキテクチャを提案し,単一タスクアーキテクチャ上の数値属性に対して9.2%のF1改善を実現した。
属性値を用いたエイリアス自動生成アルゴリズムを提案し,20.2%のF1改善を実現した。
論文 参考訳(メタデータ) (2021-04-19T19:14:32Z) - Data Augmentation in Natural Language Processing: A Novel Text
Generation Approach for Long and Short Text Classifiers [8.19984844136462]
本稿では,長文と短文の分類器の性能向上に適したテキスト生成手法を提案し,評価する。
シミュレーションされた低データレギュレーションでは、最大15.53%の加算精度ゲインが達成される。
さまざまな種類のデータセットに対するアプローチを成功に導くための意味とパターンについて議論します。
論文 参考訳(メタデータ) (2021-03-26T13:16:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。