論文の概要: Measuring Vision-Language STEM Skills of Neural Models
- arxiv url: http://arxiv.org/abs/2402.17205v2
- Date: Fri, 19 Apr 2024 03:10:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 19:28:01.881362
- Title: Measuring Vision-Language STEM Skills of Neural Models
- Title(参考訳): ニューラルモデルにおけるビジョンランゲージSTEMスキルの測定
- Authors: Jianhao Shen, Ye Yuan, Srbuhi Mirzoyan, Ming Zhang, Chenguang Wang,
- Abstract要約: 私たちのデータセットは、この課題のための最大かつ最も包括的なデータセットの1つです。
448のスキルと、全STEM科目の1,073,146の質問が含まれている。
その結果,近年のモデルでは,下級レベルのスキルの習得が極めて少ないことが示唆された。
- 参考スコア(独自算出の注目度): 12.942972241503723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a new challenge to test the STEM skills of neural models. The problems in the real world often require solutions, combining knowledge from STEM (science, technology, engineering, and math). Unlike existing datasets, our dataset requires the understanding of multimodal vision-language information of STEM. Our dataset features one of the largest and most comprehensive datasets for the challenge. It includes 448 skills and 1,073,146 questions spanning all STEM subjects. Compared to existing datasets that often focus on examining expert-level ability, our dataset includes fundamental skills and questions designed based on the K-12 curriculum. We also add state-of-the-art foundation models such as CLIP and GPT-3.5-Turbo to our benchmark. Results show that the recent model advances only help master a very limited number of lower grade-level skills (2.5% in the third grade) in our dataset. In fact, these models are still well below (averaging 54.7%) the performance of elementary students, not to mention near expert-level performance. To understand and increase the performance on our dataset, we teach the models on a training split of our dataset. Even though we observe improved performance, the model performance remains relatively low compared to average elementary students. To solve STEM problems, we will need novel algorithmic innovations from the community.
- Abstract(参考訳): ニューラルモデルのSTEMスキルをテストするための新しい挑戦を紹介する。
現実世界の問題は多くの場合、STEM(科学、技術、工学、数学)の知識を組み合わせて解決する必要がある。
既存のデータセットとは異なり、我々のデータセットはSTEMのマルチモーダル視覚言語情報を理解する必要がある。
私たちのデータセットは、この課題のための最大かつ最も包括的なデータセットの1つです。
448のスキルと、全STEM科目の1,073,146の質問が含まれている。
専門家レベルの能力を調べることに集中する既存のデータセットと比較して、我々のデータセットは、K-12カリキュラムに基づいて設計された基本的なスキルと質問を含んでいる。
ベンチマークにはCLIPやGPT-3.5-Turboといった最先端の基盤モデルも追加しています。
その結果、最近のモデルでは、データセットの下位レベルスキル(3年生では2.5%)のごく限られた数しか習得できないことがわかった。
実際、これらのモデルはまだ小学生の成績よりもかなり低い(54.7%)。
データセットのパフォーマンスを理解して向上するために、データセットのトレーニング分割についてモデルを教える。
改善された性能を観察しながらも,平均的な小学生に比べてモデル性能は比較的低いままである。
STEM問題を解決するには、コミュニティからの新しいアルゴリズムの革新が必要である。
関連論文リスト
- DSBench: How Far Are Data Science Agents to Becoming Data Science Experts? [58.330879414174476]
現実的なタスクでデータサイエンスエージェントを評価するためのベンチマークであるDSBenchを紹介する。
このベンチマークには、466のデータ分析タスクと、EloquenceとKaggleのコンペからソースされた74のデータモデリングタスクが含まれている。
現状のLLM, LVLM, エージェントを評価したところ, 最高のエージェントはデータ解析タスクの34.12%しか解決できず, RPG(Relative Performance Gap)は34.74%であった。
論文 参考訳(メタデータ) (2024-09-12T02:08:00Z) - POINTS: Improving Your Vision-language Model with Affordable Strategies [28.611705477757454]
視覚言語モデルの最新の進歩を利用して、ロバストなベースラインモデルを訓練する。
我々は、パープレキシティーを用いて事前学習データをフィルタリングし、トレーニングのための最も低いパープレキシティーデータを選択する。
視覚的なインストラクションチューニングでは、さまざまなデータセットでモデルスープを使用して、より多くのデータセットを追加することで、限界的な改善を実現しました。
論文 参考訳(メタデータ) (2024-09-07T13:41:37Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。
我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。
データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - MathVista: Evaluating Mathematical Reasoning of Foundation Models in
Visual Contexts [170.01089233942594]
MathVistaは、様々な数学的タスクと視覚的タスクの課題を組み合わせるために設計されたベンチマークである。
最高のパフォーマンスのGPT-4Vモデルは全体の49.9%の精度を達成し、第2位のパフォーマーであるBardを15.1%上回った。
GPT-4Vは、複雑な数字を理解し、厳格な推論を行うのに苦戦しているため、人間のパフォーマンスが10.4%下がったままである。
論文 参考訳(メタデータ) (2023-10-03T17:57:24Z) - Learning Objective-Specific Active Learning Strategies with Attentive
Neural Processes [72.75421975804132]
学び アクティブラーニング(LAL)は、アクティブラーニング戦略自体を学ぶことを提案し、与えられた設定に適応できるようにする。
能動学習問題の対称性と独立性を利用した新しい分類法を提案する。
私たちのアプローチは、筋電図から学ぶことに基づいており、モデルに標準ではない目的に適応する能力を与えます。
論文 参考訳(メタデータ) (2023-09-11T14:16:37Z) - GLUECons: A Generic Benchmark for Learning Under Constraints [102.78051169725455]
本研究では,自然言語処理とコンピュータビジョンの分野における9つのタスクの集合であるベンチマークを作成する。
外部知識を制約としてモデル化し、各タスクの制約のソースを特定し、これらの制約を使用するさまざまなモデルを実装します。
論文 参考訳(メタデータ) (2023-02-16T16:45:36Z) - INTERN: A New Learning Paradigm Towards General Vision [117.3343347061931]
我々はInterNという新しい学習パラダイムを開発した。
複数の段階の複数のソースからの監視信号を用いて学習することにより、トレーニング対象のモデルは強力な一般化性を生み出す。
ほとんどの場合、ターゲットドメインのトレーニングデータの10%しか適応していないモデルが、完全なデータセットでトレーニングされたトレーニングデータよりも優れています。
論文 参考訳(メタデータ) (2021-11-16T18:42:50Z) - Assessing the Knowledge State of Online Students -- New Data, New
Approaches, Improved Accuracy [28.719009375724028]
適応型オンライン教育システムを構築する上で,学生パフォーマンス(SP)モデリングは重要なステップである。
この研究は、4つの異なる知的チューリングシステムから最近利用可能になった4つの非常に大きなデータセットを使った最初のものである。
論文 参考訳(メタデータ) (2021-09-04T00:08:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。