論文の概要: SCIMAT: Science and Mathematics Dataset
- arxiv url: http://arxiv.org/abs/2109.15005v1
- Date: Thu, 30 Sep 2021 11:01:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-01 14:33:30.272268
- Title: SCIMAT: Science and Mathematics Dataset
- Title(参考訳): SCIMAT:科学と数学のデータセット
- Authors: Neeraj Kollepara, Snehith Kumar Chatakonda, Pawan Kumar
- Abstract要約: 我々は,数学と科学における大学レベルの問題に対して,数百万のサンプルを用いた,包括的で厳格なオープンソースデータセットを発表した。
文字と文字のエンコーディングを併用したトランスフォーマーアーキテクチャによる実験結果の予備セットを示す。
- 参考スコア(独自算出の注目度): 2.7436792484073638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we announce a comprehensive well curated and opensource dataset
with millions of samples for pre-college and college level problems in
mathematicsand science. A preliminary set of results using transformer
architecture with character to character encoding is shown. The dataset
identifies some challenging problem and invites research on better architecture
search
- Abstract(参考訳): 本研究は,数学と科学における大学レベルの問題に対する数百万のサンプルを用いた,包括的かつ精巧なオープンソースデータセットを公表する。
文字と文字をエンコーディングするトランスアーキテクチャを用いた予備的な結果セットを示す。
データセットはいくつかの困難な問題を特定し、アーキテクチャの検索を改善する研究を招待する
関連論文リスト
- SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - OpenMathInstruct-2: Accelerating AI for Math with Massive Open-Source Instruction Data [8.36384597713879]
OpenMathInstruct-2データセットは、14万の質問解決ペアで構成されている($600Kのユニークな質問)
texttLlama-3.1-8B-Base を OpenMath Instruct-2 で微調整すると、texttLlama3.1-8B-Instruct on MATH は 15.9% 向上する。
オープンソースへの取り組みを加速するため、我々は商用ライセンス下でコード、微調整されたモデル、OpenMath Instruct-2データセットをリリースしました。
論文 参考訳(メタデータ) (2024-10-02T14:00:09Z) - UniTraj: A Unified Framework for Scalable Vehicle Trajectory Prediction [93.77809355002591]
さまざまなデータセット、モデル、評価基準を統一する包括的なフレームワークであるUniTrajを紹介する。
我々は広範な実験を行い、他のデータセットに転送するとモデルの性能が大幅に低下することがわかった。
これらの知見を説明するために,データセットの特徴に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-03-22T10:36:50Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - DataFinder: Scientific Dataset Recommendation from Natural Language
Descriptions [100.52917027038369]
我々は、短い自然言語記述を与えられたデータセットを推奨するタスクを運用する。
この作業を容易にするために、我々は、より大規模な自動構築トレーニングセットと、より少ない専門家によるアノテート評価セットからなるDataFinderデータセットを構築した。
このシステムは、DataFinderデータセットに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。
論文 参考訳(メタデータ) (2023-05-26T05:22:36Z) - Structured Prediction Problem Archive [30.27508546519084]
構造化予測問題は、機械学習の基本的なツールの1つである。
私たちは、さまざまな問題クラスのフォーマットを簡単に読み取れるような、多数のデータセットをひとつの場所に集めています。
参考までに、論文で提案されているアルゴリズムの非排他的選択も提案する。
論文 参考訳(メタデータ) (2022-02-04T12:30:49Z) - ACRONYM: A Large-Scale Grasp Dataset Based on Simulation [64.37675024289857]
ACRONYMは物理シミュレーションに基づくロボットグリップ計画のためのデータセットである。
データセットには17.7Mのパラレルジャウグリップが含まれ、262の異なるカテゴリから8872のオブジェクトにまたがっている。
我々は、この大規模で多様なデータセットの価値を、2つの最先端の学習に基づく把握計画アルゴリズムの訓練に利用することで示す。
論文 参考訳(メタデータ) (2020-11-18T23:24:00Z) - Reverse Operation based Data Augmentation for Solving Math Word Problems [37.26159426631031]
最近のモデルはパフォーマンスボトルネックに達し、トレーニングのためにより高品質なデータを必要としている。
本稿では,数学用語問題の数学的論理を逆転する新しいデータ拡張法を提案する。
2つのSOTA数学単語問題解決モデルに拡張データを適用し、その結果を強力なデータ拡張ベースラインと比較する。
論文 参考訳(メタデータ) (2020-10-04T11:59:59Z) - dMelodies: A Music Dataset for Disentanglement Learning [70.90415511736089]
我々は、研究者が様々な領域でアルゴリズムの有効性を実証するのに役立つ新しいシンボリック・ミュージック・データセットを提案する。
これはまた、音楽用に特別に設計されたアルゴリズムを評価する手段を提供する。
データセットは、遠絡学習のためのディープネットワークのトレーニングとテストに十分な大きさ(約13万データポイント)である。
論文 参考訳(メタデータ) (2020-07-29T19:20:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。