Fugu-MT 論文翻訳(概要): Evaluating Language Models for Mathematics through Interactions

論文の概要: Evaluating Language Models for Mathematics through Interactions

arxiv url: http://arxiv.org/abs/2306.01694v1
Date: Fri, 2 Jun 2023 17:12:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-05 14:04:07.053628
Title: Evaluating Language Models for Mathematics through Interactions
Title（参考訳）: 相互作用による数学用言語モデルの評価
Authors: Katherine M. Collins and Albert Q. Jiang and Simon Frieder and Lionel Wong and Miri Zilka and Umang Bhatt and Thomas Lukasiewicz and Yuhuai Wu and Joshua B. Tenenbaum and William Hart and Timothy Gowers and Wenda Li and Adrian Weller and Mateja Jamnik
Abstract要約: 人間が大きな言語モデルと対話し、評価するための適応可能なプロトタイププラットフォームであるCheckMateを紹介した。そこで我々はCheckMateと共同で3つの言語モデルについて,学部レベルの数学の証明の補助として評価する研究を行った。人間の行動の予備的な分類法を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
参考スコア（独自算出の注目度）: 81.75543964007166
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The standard methodology of evaluating large language models (LLMs) based on static pairs of inputs and outputs is insufficient for developing assistants: this kind of assessments fails to take into account the essential interactive element in their deployment, and therefore limits how we understand language model capabilities. We introduce CheckMate, an adaptable prototype platform for humans to interact with and evaluate LLMs. We conduct a study with CheckMate to evaluate three language models~(InstructGPT, ChatGPT, and GPT-4) as assistants in proving undergraduate-level mathematics, with a mixed cohort of participants from undergraduate students to professors of mathematics. We release the resulting interaction and rating dataset, MathConverse. By analysing MathConverse, we derive a preliminary taxonomy of human behaviours and uncover that despite a generally positive correlation, there are notable instances of divergence between correctness and perceived helpfulness in LLM generations, amongst other findings. Further, we identify useful scenarios and existing issues of GPT-4 in mathematical reasoning through a series of case studies contributed by expert mathematicians. We conclude with actionable takeaways for ML practitioners and mathematicians: models which communicate uncertainty, respond well to user corrections, are more interpretable and concise may constitute better assistants; interactive evaluation is a promising way to continually navigate the capability of these models; humans should be aware of language models' algebraic fallibility, and for that reason discern where they should be used.
Abstract（参考訳）: 静的な入力と出力のペアに基づいて大規模言語モデル(llm)を評価する標準的な方法論は、アシスタントの開発には不十分である。我々は,LLMの操作と評価を行うための適応型プロトタイププラットフォームであるCheckMateを紹介する。そこで我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を,大学生から数学教授への混成コホートを用いて,学部レベルの数学の証明支援として評価した。結果のインタラクションとレーティングデータセットであるmathconverseをリリースします。 MathConverseを解析することにより、人間の行動の予備的な分類法が導き出され、概して正の相関があるにもかかわらず、LLM世代における正確性と知覚的有用性の相違が顕著であることが明らかとなった。さらに, 数学者による一連のケーススタディを通じて, GPT-4の数学的推論における有用シナリオと既存の課題を明らかにした。我々は,ML実践者や数学者に対して,不確実性を伝達し,ユーザ修正によく対応し,より解釈しやすく,より簡潔なモデルがより良いアシスタントを構成すること,対話的評価がこれらのモデルの能力を継続的にナビゲートするための有望な方法であること,言語モデルの代数的誤認を認識すべきであること,そしてその理由から,それらがどこに使われるべきかを識別すること,といった行動可能なテイクアウトで結論付けた。

関連論文リスト

The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [54.59207567677249]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文参考訳（メタデータ） (2025-05-23T20:28:31Z)
If an LLM Were a Character, Would It Know Its Own Story? Evaluating Lifelong Learning in LLMs [55.8331366739144]
大規模言語モデル(LLM)における生涯学習評価のためのベンチマークであるLIFESTATE-BENCHを紹介する。我々の事実チェック評価は、パラメトリックと非パラメトリックの両方のアプローチで、モデルの自己認識、エピソードメモリ検索、関係追跡を探索する。
論文参考訳（メタデータ） (2025-03-30T16:50:57Z)
MoRE-LLM: Mixture of Rule Experts Guided by a Large Language Model [54.14155564592936]
大規模言語モデル(MoRE-LLM)によるルールエキスパートの混合を提案する。 MoRE-LLMは、トレーニング中の局所的なルールベースのサロゲートの発見と、それらの分類タスクの利用を操縦する。 LLMはルールを修正・コンテキスト化することで、ルールのドメイン知識の整合性を高める役割を担います。
論文参考訳（メタデータ） (2025-03-26T11:09:21Z)
Navigating Semantic Relations: Challenges for Language Models in Abstract Common-Sense Reasoning [5.4141465747474475]
大規模言語モデル(LLM)は、人間のようなテキストを生成し、適度な複雑さの問題を解くことで、顕著な性能を達成した。概念ネット知識グラフを用いて,LLMにおける抽象的常識推論を体系的に評価する。
論文参考訳（メタデータ） (2025-02-19T20:20:24Z)
Training of Scaffolded Language Models with Language Supervision: A Survey [62.59629932720519]
本調査は,戦後のLM周辺における新規構造物の設計と最適化に関する文献を整理した。本稿では,この階層構造を足場型LMと呼び,ツールを用いた多段階プロセスに統合されたLMに焦点を当てる。
論文参考訳（メタデータ） (2024-10-21T18:06:25Z)
Assessing the Emergent Symbolic Reasoning Abilities of Llama Large Language Models [47.129504708849446]
大規模言語モデル(LLM)は、幅広いタスクにおいて印象的なパフォーマンスを達成する。 LLMは数学的推論ベンチマークにおいて創発的な能力を示す。我々は,Llama 2ファミリーの3つのモデルについて,異なるシンボリック推論タスクで評価した。
論文参考訳（メタデータ） (2024-06-05T12:22:43Z)
MathChat: Benchmarking Mathematical Reasoning and Instruction Following in Multi-Turn Interactions [58.57255822646756]
本稿では,大規模言語モデル (LLM) を評価するためのベンチマークであるMathChatを紹介する。我々は,MathChatベンチマーク上での様々なSOTA LLMの性能評価を行い,これらのモデルが単ターン質問応答において優れているが,より複雑なシナリオでは性能が著しく劣っていることを観察した。我々は,LLMファインタニングのための合成対話に基づく数学データセットであるMathChat syncを開発した。
論文参考訳（メタデータ） (2024-05-29T18:45:55Z)
ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline [42.61538071832468]
大規模言語モデル(LLM)は、人間の言語の優れた習得を示すが、数学的な問題解決を必要とする現実世界のアプリケーションでは依然として苦戦している。 LLMアライメントのフィードバック学習段階における課題に対処する自己批判パイプラインを調整します。
論文参考訳（メタデータ） (2024-04-03T17:51:18Z)
GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。 1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文参考訳（メタデータ） (2024-02-29T15:26:14Z)
Towards Understanding Counseling Conversations: Domain Knowledge and Large Language Models [22.588557390720236]
本稿では,カウンセリング会話をより良く表現するために,ドメイン知識と大規模言語モデル(LLM)の有効性を検討するための体系的なアプローチを提案する。本稿では,トランスフォーマーモデルやGPTモデルのような最先端言語モデルは,会話結果の予測に失敗することを示す。
論文参考訳（メタデータ） (2024-02-22T01:02:37Z)
Large Language Models for Mathematicians [53.27302720305432]
大規模言語モデル(LLM)は、汎用言語理解、特に高品質なテキストやコンピュータコードを生成する能力に多大な関心を集めている。本稿では,プロの数学者をどの程度支援できるかについて論じる。
論文参考訳（メタデータ） (2023-12-07T18:59:29Z)
CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文参考訳（メタデータ） (2023-10-24T08:56:49Z)
Democratizing Reasoning Ability: Tailored Learning from Large Language Model [97.4921006089966]
そこで我々は,そのような推論能力をより小さなLMに蒸留する,適切な学習手法を提案する。対話型多ラウンド学習パラダイムを構築することにより,理科教員としてのLLMの可能性を活用する。より小さなLMの推論可能性を活用するために,学生が自作ミスから学習する動機付けを目的とした自己回帰学習を提案する。
論文参考訳（メタデータ） (2023-10-20T07:50:10Z)
Do LLMs Understand Social Knowledge? Evaluating the Sociability of Large Language Models with SocKET Benchmark [14.922083834969323]
大規模言語モデル(LLM)は、様々な構文、談話、推論タスクでうまく機能することが示されている。我々は、社会知識をテストする58のNLPタスクを含む理論駆動型ベンチマーク「SocKET」を導入する。
論文参考訳（メタデータ） (2023-05-24T09:21:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。