論文の概要: Evaluating Language Models for Mathematics through Interactions
- arxiv url: http://arxiv.org/abs/2306.01694v2
- Date: Sun, 5 Nov 2023 19:12:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 22:16:11.784268
- Title: Evaluating Language Models for Mathematics through Interactions
- Title(参考訳): 相互作用による数学用言語モデルの評価
- Authors: Katherine M. Collins and Albert Q. Jiang and Simon Frieder and Lionel
Wong and Miri Zilka and Umang Bhatt and Thomas Lukasiewicz and Yuhuai Wu and
Joshua B. Tenenbaum and William Hart and Timothy Gowers and Wenda Li and
Adrian Weller and Mateja Jamnik
- Abstract要約: 大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。
我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。
我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
- 参考スコア(独自算出の注目度): 116.67206980096513
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is much excitement about the opportunity to harness the power of large
language models (LLMs) when building problem-solving assistants. However, the
standard methodology of evaluating LLMs relies on static pairs of inputs and
outputs, and is insufficient for making an informed decision about which LLMs
and under which assistive settings can they be sensibly used. Static assessment
fails to account for the essential interactive element in LLM deployment, and
therefore limits how we understand language model capabilities. We introduce
CheckMate, an adaptable prototype platform for humans to interact with and
evaluate LLMs. We conduct a study with CheckMate to evaluate three language
models (InstructGPT, ChatGPT, and GPT-4) as assistants in proving
undergraduate-level mathematics, with a mixed cohort of participants from
undergraduate students to professors of mathematics. We release the resulting
interaction and rating dataset, MathConverse. By analysing MathConverse, we
derive a taxonomy of human behaviours and uncover that despite a generally
positive correlation, there are notable instances of divergence between
correctness and perceived helpfulness in LLM generations, amongst other
findings. Further, we garner a more granular understanding of GPT-4
mathematical problem-solving through a series of case studies, contributed by
expert mathematicians. We conclude with actionable takeaways for ML
practitioners and mathematicians: models that communicate uncertainty respond
well to user corrections, and are more interpretable and concise may constitute
better assistants. Interactive evaluation is a promising way to navigate the
capability of these models; humans should be aware of language models'
algebraic fallibility and discern where they are appropriate to use.
- Abstract(参考訳): 問題解決アシスタントを構築する際に、大きな言語モデル(LLM)のパワーを利用する機会に多くの興奮がある。
しかし LLM の評価手法は静的な入力と出力のペアに依存しており、どの LLM をどの下方で、どの補助設定を適宜利用できるかという情報的決定を下すには不十分である。
静的アセスメントは、LLMデプロイメントにおいて不可欠な対話的要素を考慮せず、言語モデルの能力を理解する方法を制限する。
我々は,LLMの操作と評価を行うための適応型プロトタイププラットフォームであるCheckMateを紹介する。
大学生と数学の教授の混合コホートを用いて,3つの言語モデル(instructgpt,chatgpt,gpt-4)を学部レベルの数学の証明助手として評価する。
結果のインタラクションとレーティングデータセットであるmathconverseをリリースします。
MathConverseを解析することにより、人間の行動の分類が導き出され、概して正の相関にもかかわらず、LLM世代における正確性と知覚的有用性の相違が顕著であることが明らかとなった。
さらに、専門家数学者による一連のケーススタディを通じて、GPT-4の数学的問題解決に関するより詳細な理解を深める。
我々は,機械学習の実践者や数学者に対して,不確実性を伝えるモデルはユーザの修正によく反応し,より解釈可能で簡潔なモデルは,より良いアシスタントを構成する可能性がある,と結論付けた。
対話的評価(interactive evaluation)は、これらのモデルの能力をナビゲートするための有望な方法である。
関連論文リスト
- FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of
LLMs as Mathematical Problem Solvers [73.78371810664319]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - Towards Understanding Counseling Conversations: Domain Knowledge and
Large Language Models [22.588557390720236]
本稿では,カウンセリング会話をより良く表現するために,ドメイン知識と大規模言語モデル(LLM)の有効性を検討するための体系的なアプローチを提案する。
本稿では,トランスフォーマーモデルやGPTモデルのような最先端言語モデルは,会話結果の予測に失敗することを示す。
論文 参考訳(メタデータ) (2024-02-22T01:02:37Z) - Large Language Models for Mathematicians [58.196955111156676]
大規模言語モデル(LLM)は、汎用言語理解、特に高品質なテキストやコンピュータコードを生成する能力に多大な関心を集めている。
本稿では,プロの数学者をどの程度支援できるかについて論じる。
論文 参考訳(メタデータ) (2023-12-07T18:59:29Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Democratizing Reasoning Ability: Tailored Learning from Large Language
Model [97.4921006089966]
そこで我々は,そのような推論能力をより小さなLMに蒸留する,適切な学習手法を提案する。
対話型多ラウンド学習パラダイムを構築することにより,理科教員としてのLLMの可能性を活用する。
より小さなLMの推論可能性を活用するために,学生が自作ミスから学習する動機付けを目的とした自己回帰学習を提案する。
論文 参考訳(メタデータ) (2023-10-20T07:50:10Z) - No Train Still Gain. Unleash Mathematical Reasoning of Large Language
Models with Monte Carlo Tree Search Guided by Energy Function [3.0299876288833345]
大きな言語モデル(LLM)は、印象的な言語理解と文脈学習能力を示している。
LLMは、解の確率が高いにもかかわらず、正しい推論ステップと答えを生成するのにしばしば苦労する。
モンテカルロ木探索 (MCTS) と軽量エネルギー関数を組み込んだ決定ステップのランク付け手法を提案する。
論文 参考訳(メタデータ) (2023-09-01T13:10:54Z) - Do LLMs Understand Social Knowledge? Evaluating the Sociability of Large
Language Models with SocKET Benchmark [14.922083834969323]
大規模言語モデル(LLM)は、様々な構文、談話、推論タスクでうまく機能することが示されている。
我々は、社会知識をテストする58のNLPタスクを含む理論駆動型ベンチマーク「SocKET」を導入する。
論文 参考訳(メタデータ) (2023-05-24T09:21:06Z) - Pair Programming with Large Language Models for Sampling and Estimation
of Copulas [0.0]
モンテカルロシミュレーションに基づくコプラによる依存モデリングの例は、最先端の大規模言語モデル(LLM)を用いて開発されている。
この中には、自然言語でのChatGPTとのインタラクションや数学的形式の使用が含まれており、PythonとRで動作するコードの生成につながっている。
注意深い急進的なエンジニアリングを通じて、ChatGPTが生成した成功解と失敗解を分離し、その結果、関連する長所と短所の包括的リストを得る。
論文 参考訳(メタデータ) (2023-03-31T15:02:48Z) - MathPrompter: Mathematical Reasoning using Large Language Models [7.953723258038284]
大規模言語モデル (LLM) は算術的推論タスクを解く際の性能に制限がある。
MathPrompterはZero-shot-of- Thoughtプロンプト技術を使って複数の代数式やPython関数を生成し、異なる方法で同じ数学問題を解く。
論文 参考訳(メタデータ) (2023-03-04T04:43:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。