論文の概要: Lila: A Unified Benchmark for Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2210.17517v1
- Date: Mon, 31 Oct 2022 17:41:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 15:12:01.542176
- Title: Lila: A Unified Benchmark for Mathematical Reasoning
- Title(参考訳): Lila: 数学的推論のための統一ベンチマーク
- Authors: Swaroop Mishra, Matthew Finlayson, Pan Lu, Leonard Tang, Sean Welleck,
Chitta Baral, Tanmay Rajpurohit, Oyvind Tafjord, Ashish Sabharwal, Peter
Clark, Ashwin Kalyan
- Abstract要約: LILAは、23の多様なタスクと4次元からなる統一的な数学的推論ベンチマークである。
我々は,Pythonプログラムの形式でタスク命令とソリューションを収集することにより,20のデータセットベンチマークを拡張してベンチマークを構築した。
LILAで訓練された汎用数学的推論モデルであるBHASKARAを紹介する。
- 参考スコア(独自算出の注目度): 59.97570380432861
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mathematical reasoning skills are essential for general-purpose intelligent
systems to perform tasks from grocery shopping to climate modeling. Towards
evaluating and improving AI systems in this domain, we propose LILA, a unified
mathematical reasoning benchmark consisting of 23 diverse tasks along four
dimensions: (i) mathematical abilities e.g., arithmetic, calculus (ii) language
format e.g., question-answering, fill-in-the-blanks (iii) language diversity
e.g., no language, simple language (iv) external knowledge e.g., commonsense,
physics. We construct our benchmark by extending 20 datasets benchmark by
collecting task instructions and solutions in the form of Python programs,
thereby obtaining explainable solutions in addition to the correct answer. We
additionally introduce two evaluation datasets to measure out-of-distribution
performance and robustness to language perturbation. Finally, we introduce
BHASKARA, a general-purpose mathematical reasoning model trained on LILA.
Importantly, we find that multi-tasking leads to significant improvements
(average relative improvement of 21.83% F1 score vs. single-task models), while
the best performing model only obtains 60.40%, indicating the room for
improvement in general mathematical reasoning and understanding.
- Abstract(参考訳): 食料品の買い物から気候モデリングまで,汎用知能システムにとって数学的推論技術は不可欠である。
この領域におけるAIシステムの評価と改善に向けて、23の多様なタスクと4次元からなる統一数学的推論ベンチマークであるLILAを提案する。
(i)算術,算術,算数などの数学能力
(ii)質問処理、記入用ブランク等の言語形式
(iii)言語多様性、例えば、言語なし、単純言語
(4)外部知識(例:常識、物理学)
我々は、pythonプログラムの形式でタスク命令とソリューションを収集し、20のデータセットベンチマークを拡張してベンチマークを構築し、正しい答えに加えて説明可能なソリューションを得る。
さらに,言語摂動に対する分布外性能と頑健性を測定するための2つの評価データセットも導入する。
最後に、LILAで訓練された汎用数学的推論モデルであるBHASKARAを紹介する。
重要なことに、マルチタスクは大幅な改善(平均21.83%のf1スコアとシングルタスクモデルとの相対的な改善)をもたらすが、最高のパフォーマンスモデルは60.40%しか得られず、一般的な数学的推論と理解の改善の余地が示される。
関連論文リスト
- Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models [62.815222721144636]
我々は、LLaVA-1.5ベースのMathV360Kで微調整されたモデルであるMath-LLaVAを紹介する。
この手法はLLaVA-1.5のマルチモーダル数学的推論能力を著しく改善する。
Math-LLaVAは、MMMUベンチマークで大幅に改善された一般化性を示している。
論文 参考訳(メタデータ) (2024-06-25T05:43:21Z) - LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback [71.95402654982095]
本研究では,自然言語フィードバック型検証器Math-Minosを提案する。
実験の結果,少量の自然言語フィードバックが検証器の性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-06-20T06:42:27Z) - Can Language Models Solve Olympiad Programming? [40.54366634332231]
本稿ではUSACOベンチマークについて,USA Computing Olympiadの307の問題点について紹介する。
競争型プログラミングのための様々なLM推論手法を初めて構築・テストする。
GPT-4 は 8.7% パス@1 の精度しか達成していない。
論文 参考訳(メタデータ) (2024-04-16T23:27:38Z) - MATHSENSEI: A Tool-Augmented Large Language Model for Mathematical Reasoning [2.9104279358536647]
数学的推論のためのツール強化された大規模言語モデルであるMathSenseiを提案する。
ツールの補完的な利点として、知識検索(Bing Web Search)、プログラムジェネレータ+エグゼキュータ(Python)、記号方程式ソルバ(Wolfram-Alpha API)について検討する。
論文 参考訳(メタデータ) (2024-02-27T05:50:35Z) - InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning [98.53491178426492]
InternLM2から事前学習を継続するILMs InternLM-Mathをオープンソースとして公開する。
我々は、連鎖推論、報酬モデリング、形式推論、データ拡張、コードインタプリタを、統一されたSeq2seqフォーマットで統一する。
我々の事前学習モデルは、微調整なしでMiniF2Fテストセットで30.3を達成する。
論文 参考訳(メタデータ) (2024-02-09T11:22:08Z) - PUB: A Pragmatics Understanding Benchmark for Assessing LLMs' Pragmatics
Capabilities [40.55743949223173]
Pragmatics Understanding Benchmark (PUB) は、4つの実用的現象における14のタスクからなるデータセットである。
PUBには合計28kのデータポイントが含まれており、そのうち6.1kは私たちによって作成され、残りは既存のデータセットから適応されている。
本研究は,命令追従とチャットの微調整により,より小さな言語モデルの実用性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-01-13T13:46:14Z) - MathVista: Evaluating Mathematical Reasoning of Foundation Models in
Visual Contexts [170.01089233942594]
MathVistaは、様々な数学的タスクと視覚的タスクの課題を組み合わせるために設計されたベンチマークである。
最高のパフォーマンスのGPT-4Vモデルは全体の49.9%の精度を達成し、第2位のパフォーマーであるBardを15.1%上回った。
GPT-4Vは、複雑な数字を理解し、厳格な推論を行うのに苦戦しているため、人間のパフォーマンスが10.4%下がったままである。
論文 参考訳(メタデータ) (2023-10-03T17:57:24Z) - ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving [170.7899683843177]
ToRAは、難解な数学的問題を解決するために設計されたツール統合推論エージェントのシリーズである。
ToRAモデルは、あらゆるスケールにわたる10の数学的推論データセットで、オープンソースモデルよりも大幅に優れています。
ToRA-Code-34Bは、MATHで50%を超える精度を達成する最初のオープンソースモデルである。
論文 参考訳(メタデータ) (2023-09-29T17:59:38Z) - NumGLUE: A Suite of Fundamental yet Challenging Mathematical Reasoning
Tasks [37.730939229638224]
8つのタスクでAIシステムの性能を評価するベンチマークであるNumGLUEを提案する。
このベンチマークは、最先端の大規模言語モデルを含むニューラルモデルで解決されるには程遠い。
我々はNumGLUEが言語内で堅牢で一般的な算術推論を行うシステムを促進することを願っている。
論文 参考訳(メタデータ) (2022-04-12T09:36:10Z) - CS-NLP team at SemEval-2020 Task 4: Evaluation of State-of-the-art NLP
Deep Learning Architectures on Commonsense Reasoning Task [3.058685580689605]
本稿では,SemEval-2020 Task 4 competition: Commonsense Validation and Explanation (ComVE) Challengeについて述べる。
本システムは、3つの異なる自然言語推論サブタスクに対して手動でキュレートされたラベル付きテキストデータセットを使用する。
第2のサブタスクでは、声明が意味をなさない理由を選択するため、27人の参加者のうち、最初の6チーム(93.7%)で非常に競争力のある結果が得られます。
論文 参考訳(メタデータ) (2020-05-17T13:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。