Fugu-MT 論文翻訳(概要): SCIMAT: Science and Mathematics Dataset

論文の概要: SCIMAT: Science and Mathematics Dataset

arxiv url: http://arxiv.org/abs/2109.15005v1
Date: Thu, 30 Sep 2021 11:01:11 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-01 14:33:30.272268
Title: SCIMAT: Science and Mathematics Dataset
Title（参考訳）: SCIMAT:科学と数学のデータセット
Authors: Neeraj Kollepara, Snehith Kumar Chatakonda, Pawan Kumar
Abstract要約: 我々は,数学と科学における大学レベルの問題に対して,数百万のサンプルを用いた,包括的で厳格なオープンソースデータセットを発表した。文字と文字のエンコーディングを併用したトランスフォーマーアーキテクチャによる実験結果の予備セットを示す。
参考スコア（独自算出の注目度）: 2.7436792484073638
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we announce a comprehensive well curated and opensource dataset with millions of samples for pre-college and college level problems in mathematicsand science. A preliminary set of results using transformer architecture with character to character encoding is shown. The dataset identifies some challenging problem and invites research on better architecture search
Abstract（参考訳）: 本研究は,数学と科学における大学レベルの問題に対する数百万のサンプルを用いた,包括的かつ精巧なオープンソースデータセットを公表する。文字と文字をエンコーディングするトランスアーキテクチャを用いた予備的な結果セットを示す。データセットはいくつかの困難な問題を特定し、アーキテクチャの検索を改善する研究を招待する

関連論文リスト

Learning to Solve Complex Problems via Dataset Decomposition [53.1641602054716]
本研究では、複雑なデータセットをよりシンプルで学習しやすいコンポーネントに分解する逆カリキュラム生成アプローチについて検討する。そこで本研究では,教師が段階的に推論する能力を備えた教師学習フレームワークを提案する。
論文参考訳（メタデータ） (2026-02-23T19:25:40Z)
MegaMath: Pushing the Limits of Open Math Corpora [44.148011362359036]
MegaMathは、多種多様な数学に焦点を当てたソースからキュレートされたオープンデータセットである。 MegaMathは、既存のオープン数学事前トレーニングデータセットの中で、最大で最高品質の371Bトークンを提供する。
論文参考訳（メタデータ） (2025-04-03T17:52:07Z)
Machine Learning meets Algebraic Combinatorics: A Suite of Datasets Capturing Research-level Conjecturing Ability in Pure Mathematics [4.229995708813431]
私たちはAlgebraic Combinatorics dataset Repository (ACD Repo)という新しいデータセットのコレクションを紹介します。各データセットには、オープンな研究レベルの質問と、サンプルの大規模なコレクションが含まれている。機械学習モデルを適用する方法の異なる9つのデータセットについて説明する。
論文参考訳（メタデータ） (2025-03-09T00:11:40Z)
Data for Mathematical Copilots: Better Ways of Presenting Proofs for Machine Learning [85.635988711588]
我々は,大規模言語モデルの能力向上には,数学的データセットの設計におけるパラダイムシフトが必要であると論じる。 1949年にG. P'olyaが導入した「動機付き証明」の概念は、より良い証明学習信号を提供するデータセットの青写真として機能する。数学データセットに特化して設計されたアンケートでは、クリエーターにデータセットを含めるよう促します。
論文参考訳（メタデータ） (2024-12-19T18:55:17Z)
SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文参考訳（メタデータ） (2024-10-28T15:56:49Z)
OpenMathInstruct-2: Accelerating AI for Math with Massive Open-Source Instruction Data [8.36384597713879]
OpenMathInstruct-2データセットは、14万の質問解決ペアで構成されている($600Kのユニークな質問) texttLlama-3.1-8B-Base を OpenMath Instruct-2 で微調整すると、texttLlama3.1-8B-Instruct on MATH は 15.9% 向上する。オープンソースへの取り組みを加速するため、我々は商用ライセンス下でコード、微調整されたモデル、OpenMath Instruct-2データセットをリリースしました。
論文参考訳（メタデータ） (2024-10-02T14:00:09Z)
UniTraj: A Unified Framework for Scalable Vehicle Trajectory Prediction [93.77809355002591]
さまざまなデータセット、モデル、評価基準を統一する包括的なフレームワークであるUniTrajを紹介する。我々は広範な実験を行い、他のデータセットに転送するとモデルの性能が大幅に低下することがわかった。これらの知見を説明するために,データセットの特徴に関する洞察を提供する。
論文参考訳（メタデータ） (2024-03-22T10:36:50Z)
On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-24T14:01:53Z)
DataFinder: Scientific Dataset Recommendation from Natural Language Descriptions [100.52917027038369]
我々は、短い自然言語記述を与えられたデータセットを推奨するタスクを運用する。この作業を容易にするために、我々は、より大規模な自動構築トレーニングセットと、より少ない専門家によるアノテート評価セットからなるDataFinderデータセットを構築した。このシステムは、DataFinderデータセットに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。
論文参考訳（メタデータ） (2023-05-26T05:22:36Z)
Structured Prediction Problem Archive [30.27508546519084]
構造化予測問題は、機械学習の基本的なツールの1つである。私たちは、さまざまな問題クラスのフォーマットを簡単に読み取れるような、多数のデータセットをひとつの場所に集めています。参考までに、論文で提案されているアルゴリズムの非排他的選択も提案する。
論文参考訳（メタデータ） (2022-02-04T12:30:49Z)
ACRONYM: A Large-Scale Grasp Dataset Based on Simulation [64.37675024289857]
ACRONYMは物理シミュレーションに基づくロボットグリップ計画のためのデータセットである。データセットには17.7Mのパラレルジャウグリップが含まれ、262の異なるカテゴリから8872のオブジェクトにまたがっている。我々は、この大規模で多様なデータセットの価値を、2つの最先端の学習に基づく把握計画アルゴリズムの訓練に利用することで示す。
論文参考訳（メタデータ） (2020-11-18T23:24:00Z)
Reverse Operation based Data Augmentation for Solving Math Word Problems [37.26159426631031]
最近のモデルはパフォーマンスボトルネックに達し、トレーニングのためにより高品質なデータを必要としている。本稿では,数学用語問題の数学的論理を逆転する新しいデータ拡張法を提案する。 2つのSOTA数学単語問題解決モデルに拡張データを適用し、その結果を強力なデータ拡張ベースラインと比較する。
論文参考訳（メタデータ） (2020-10-04T11:59:59Z)
dMelodies: A Music Dataset for Disentanglement Learning [70.90415511736089]
我々は、研究者が様々な領域でアルゴリズムの有効性を実証するのに役立つ新しいシンボリック・ミュージック・データセットを提案する。これはまた、音楽用に特別に設計されたアルゴリズムを評価する手段を提供する。データセットは、遠絡学習のためのディープネットワークのトレーニングとテストに十分な大きさ(約13万データポイント)である。
論文参考訳（メタデータ） (2020-07-29T19:20:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。