論文の概要: Evaluating Language Models for Mathematics through Interactions
- arxiv url: http://arxiv.org/abs/2306.01694v2
- Date: Sun, 5 Nov 2023 19:12:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 22:16:11.784268
- Title: Evaluating Language Models for Mathematics through Interactions
- Title(参考訳): 相互作用による数学用言語モデルの評価
- Authors: Katherine M. Collins and Albert Q. Jiang and Simon Frieder and Lionel
Wong and Miri Zilka and Umang Bhatt and Thomas Lukasiewicz and Yuhuai Wu and
Joshua B. Tenenbaum and William Hart and Timothy Gowers and Wenda Li and
Adrian Weller and Mateja Jamnik
- Abstract要約: 大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。
我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。
我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
- 参考スコア(独自算出の注目度): 116.67206980096513
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is much excitement about the opportunity to harness the power of large
language models (LLMs) when building problem-solving assistants. However, the
standard methodology of evaluating LLMs relies on static pairs of inputs and
outputs, and is insufficient for making an informed decision about which LLMs
and under which assistive settings can they be sensibly used. Static assessment
fails to account for the essential interactive element in LLM deployment, and
therefore limits how we understand language model capabilities. We introduce
CheckMate, an adaptable prototype platform for humans to interact with and
evaluate LLMs. We conduct a study with CheckMate to evaluate three language
models (InstructGPT, ChatGPT, and GPT-4) as assistants in proving
undergraduate-level mathematics, with a mixed cohort of participants from
undergraduate students to professors of mathematics. We release the resulting
interaction and rating dataset, MathConverse. By analysing MathConverse, we
derive a taxonomy of human behaviours and uncover that despite a generally
positive correlation, there are notable instances of divergence between
correctness and perceived helpfulness in LLM generations, amongst other
findings. Further, we garner a more granular understanding of GPT-4
mathematical problem-solving through a series of case studies, contributed by
expert mathematicians. We conclude with actionable takeaways for ML
practitioners and mathematicians: models that communicate uncertainty respond
well to user corrections, and are more interpretable and concise may constitute
better assistants. Interactive evaluation is a promising way to navigate the
capability of these models; humans should be aware of language models'
algebraic fallibility and discern where they are appropriate to use.
- Abstract(参考訳): 問題解決アシスタントを構築する際に、大きな言語モデル(LLM)のパワーを利用する機会に多くの興奮がある。
しかし LLM の評価手法は静的な入力と出力のペアに依存しており、どの LLM をどの下方で、どの補助設定を適宜利用できるかという情報的決定を下すには不十分である。
静的アセスメントは、LLMデプロイメントにおいて不可欠な対話的要素を考慮せず、言語モデルの能力を理解する方法を制限する。
我々は,LLMの操作と評価を行うための適応型プロトタイププラットフォームであるCheckMateを紹介する。
大学生と数学の教授の混合コホートを用いて,3つの言語モデル(instructgpt,chatgpt,gpt-4)を学部レベルの数学の証明助手として評価する。
結果のインタラクションとレーティングデータセットであるmathconverseをリリースします。
MathConverseを解析することにより、人間の行動の分類が導き出され、概して正の相関にもかかわらず、LLM世代における正確性と知覚的有用性の相違が顕著であることが明らかとなった。
さらに、専門家数学者による一連のケーススタディを通じて、GPT-4の数学的問題解決に関するより詳細な理解を深める。
我々は,機械学習の実践者や数学者に対して,不確実性を伝えるモデルはユーザの修正によく反応し,より解釈可能で簡潔なモデルは,より良いアシスタントを構成する可能性がある,と結論付けた。
対話的評価(interactive evaluation)は、これらのモデルの能力をナビゲートするための有望な方法である。
関連論文リスト
- Assessing the Emergent Symbolic Reasoning Abilities of Llama Large Language Models [47.129504708849446]
大規模言語モデル(LLM)は、幅広いタスクにおいて印象的なパフォーマンスを達成する。
LLMは数学的推論ベンチマークにおいて創発的な能力を示す。
我々は,Llama 2ファミリーの3つのモデルについて,異なるシンボリック推論タスクで評価した。
論文 参考訳(メタデータ) (2024-06-05T12:22:43Z) - MathChat: Benchmarking Mathematical Reasoning and Instruction Following in Multi-Turn Interactions [58.57255822646756]
本稿では,大規模言語モデル (LLM) を評価するためのベンチマークであるMathChatを紹介する。
我々は,MathChatベンチマーク上での様々なSOTA LLMの性能評価を行い,これらのモデルが単ターン質問応答において優れているが,より複雑なシナリオでは性能が著しく劣っていることを観察した。
我々は,LLMファインタニングのための合成対話に基づく数学データセットであるMathChat syncを開発した。
論文 参考訳(メタデータ) (2024-05-29T18:45:55Z) - ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline [42.61538071832468]
大規模言語モデル(LLM)は、人間の言語の優れた習得を示すが、数学的な問題解決を必要とする現実世界のアプリケーションでは依然として苦戦している。
LLMアライメントのフィードバック学習段階における課題に対処する自己批判パイプラインを調整します。
論文 参考訳(メタデータ) (2024-04-03T17:51:18Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - Towards Understanding Counseling Conversations: Domain Knowledge and
Large Language Models [22.588557390720236]
本稿では,カウンセリング会話をより良く表現するために,ドメイン知識と大規模言語モデル(LLM)の有効性を検討するための体系的なアプローチを提案する。
本稿では,トランスフォーマーモデルやGPTモデルのような最先端言語モデルは,会話結果の予測に失敗することを示す。
論文 参考訳(メタデータ) (2024-02-22T01:02:37Z) - Large Language Models for Mathematicians [53.27302720305432]
大規模言語モデル(LLM)は、汎用言語理解、特に高品質なテキストやコンピュータコードを生成する能力に多大な関心を集めている。
本稿では,プロの数学者をどの程度支援できるかについて論じる。
論文 参考訳(メタデータ) (2023-12-07T18:59:29Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Democratizing Reasoning Ability: Tailored Learning from Large Language
Model [97.4921006089966]
そこで我々は,そのような推論能力をより小さなLMに蒸留する,適切な学習手法を提案する。
対話型多ラウンド学習パラダイムを構築することにより,理科教員としてのLLMの可能性を活用する。
より小さなLMの推論可能性を活用するために,学生が自作ミスから学習する動機付けを目的とした自己回帰学習を提案する。
論文 参考訳(メタデータ) (2023-10-20T07:50:10Z) - Do LLMs Understand Social Knowledge? Evaluating the Sociability of Large
Language Models with SocKET Benchmark [14.922083834969323]
大規模言語モデル(LLM)は、様々な構文、談話、推論タスクでうまく機能することが示されている。
我々は、社会知識をテストする58のNLPタスクを含む理論駆動型ベンチマーク「SocKET」を導入する。
論文 参考訳(メタデータ) (2023-05-24T09:21:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。