論文の概要: Evaluating Language Models for Mathematics through Interactions
- arxiv url: http://arxiv.org/abs/2306.01694v1
- Date: Fri, 2 Jun 2023 17:12:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 14:04:07.053628
- Title: Evaluating Language Models for Mathematics through Interactions
- Title(参考訳): 相互作用による数学用言語モデルの評価
- Authors: Katherine M. Collins and Albert Q. Jiang and Simon Frieder and Lionel
Wong and Miri Zilka and Umang Bhatt and Thomas Lukasiewicz and Yuhuai Wu and
Joshua B. Tenenbaum and William Hart and Timothy Gowers and Wenda Li and
Adrian Weller and Mateja Jamnik
- Abstract要約: 人間が大きな言語モデルと対話し、評価するための適応可能なプロトタイププラットフォームであるCheckMateを紹介した。
そこで我々はCheckMateと共同で3つの言語モデルについて,学部レベルの数学の証明の補助として評価する研究を行った。
人間の行動の予備的な分類法を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
- 参考スコア(独自算出の注目度): 81.75543964007166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The standard methodology of evaluating large language models (LLMs) based on
static pairs of inputs and outputs is insufficient for developing assistants:
this kind of assessments fails to take into account the essential interactive
element in their deployment, and therefore limits how we understand language
model capabilities. We introduce CheckMate, an adaptable prototype platform for
humans to interact with and evaluate LLMs. We conduct a study with CheckMate to
evaluate three language models~(InstructGPT, ChatGPT, and GPT-4) as assistants
in proving undergraduate-level mathematics, with a mixed cohort of participants
from undergraduate students to professors of mathematics. We release the
resulting interaction and rating dataset, MathConverse. By analysing
MathConverse, we derive a preliminary taxonomy of human behaviours and uncover
that despite a generally positive correlation, there are notable instances of
divergence between correctness and perceived helpfulness in LLM generations,
amongst other findings. Further, we identify useful scenarios and existing
issues of GPT-4 in mathematical reasoning through a series of case studies
contributed by expert mathematicians. We conclude with actionable takeaways for
ML practitioners and mathematicians: models which communicate uncertainty,
respond well to user corrections, are more interpretable and concise may
constitute better assistants; interactive evaluation is a promising way to
continually navigate the capability of these models; humans should be aware of
language models' algebraic fallibility, and for that reason discern where they
should be used.
- Abstract(参考訳): 静的な入力と出力のペアに基づいて大規模言語モデル(llm)を評価する標準的な方法論は、アシスタントの開発には不十分である。
我々は,LLMの操作と評価を行うための適応型プロトタイププラットフォームであるCheckMateを紹介する。
そこで我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を,大学生から数学教授への混成コホートを用いて,学部レベルの数学の証明支援として評価した。
結果のインタラクションとレーティングデータセットであるmathconverseをリリースします。
MathConverseを解析することにより、人間の行動の予備的な分類法が導き出され、概して正の相関があるにもかかわらず、LLM世代における正確性と知覚的有用性の相違が顕著であることが明らかとなった。
さらに, 数学者による一連のケーススタディを通じて, GPT-4の数学的推論における有用シナリオと既存の課題を明らかにした。
我々は,ML実践者や数学者に対して,不確実性を伝達し,ユーザ修正によく対応し,より解釈しやすく,より簡潔なモデルがより良いアシスタントを構成すること,対話的評価がこれらのモデルの能力を継続的にナビゲートするための有望な方法であること,言語モデルの代数的誤認を認識すべきであること,そしてその理由から,それらがどこに使われるべきかを識別すること,といった行動可能なテイクアウトで結論付けた。
関連論文リスト
- Assessing the Emergent Symbolic Reasoning Abilities of Llama Large Language Models [47.129504708849446]
大規模言語モデル(LLM)は、幅広いタスクにおいて印象的なパフォーマンスを達成する。
LLMは数学的推論ベンチマークにおいて創発的な能力を示す。
我々は,Llama 2ファミリーの3つのモデルについて,異なるシンボリック推論タスクで評価した。
論文 参考訳(メタデータ) (2024-06-05T12:22:43Z) - MathChat: Benchmarking Mathematical Reasoning and Instruction Following in Multi-Turn Interactions [58.57255822646756]
本稿では,大規模言語モデル (LLM) を評価するためのベンチマークであるMathChatを紹介する。
我々は,MathChatベンチマーク上での様々なSOTA LLMの性能評価を行い,これらのモデルが単ターン質問応答において優れているが,より複雑なシナリオでは性能が著しく劣っていることを観察した。
我々は,LLMファインタニングのための合成対話に基づく数学データセットであるMathChat syncを開発した。
論文 参考訳(メタデータ) (2024-05-29T18:45:55Z) - ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline [42.61538071832468]
大規模言語モデル(LLM)は、人間の言語の優れた習得を示すが、数学的な問題解決を必要とする現実世界のアプリケーションでは依然として苦戦している。
LLMアライメントのフィードバック学習段階における課題に対処する自己批判パイプラインを調整します。
論文 参考訳(メタデータ) (2024-04-03T17:51:18Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - Towards Understanding Counseling Conversations: Domain Knowledge and
Large Language Models [22.588557390720236]
本稿では,カウンセリング会話をより良く表現するために,ドメイン知識と大規模言語モデル(LLM)の有効性を検討するための体系的なアプローチを提案する。
本稿では,トランスフォーマーモデルやGPTモデルのような最先端言語モデルは,会話結果の予測に失敗することを示す。
論文 参考訳(メタデータ) (2024-02-22T01:02:37Z) - Large Language Models for Mathematicians [53.27302720305432]
大規模言語モデル(LLM)は、汎用言語理解、特に高品質なテキストやコンピュータコードを生成する能力に多大な関心を集めている。
本稿では,プロの数学者をどの程度支援できるかについて論じる。
論文 参考訳(メタデータ) (2023-12-07T18:59:29Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Democratizing Reasoning Ability: Tailored Learning from Large Language
Model [97.4921006089966]
そこで我々は,そのような推論能力をより小さなLMに蒸留する,適切な学習手法を提案する。
対話型多ラウンド学習パラダイムを構築することにより,理科教員としてのLLMの可能性を活用する。
より小さなLMの推論可能性を活用するために,学生が自作ミスから学習する動機付けを目的とした自己回帰学習を提案する。
論文 参考訳(メタデータ) (2023-10-20T07:50:10Z) - Do LLMs Understand Social Knowledge? Evaluating the Sociability of Large
Language Models with SocKET Benchmark [14.922083834969323]
大規模言語モデル(LLM)は、様々な構文、談話、推論タスクでうまく機能することが示されている。
我々は、社会知識をテストする58のNLPタスクを含む理論駆動型ベンチマーク「SocKET」を導入する。
論文 参考訳(メタデータ) (2023-05-24T09:21:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。