論文の概要: Math Takes Two: A test for emergent mathematical reasoning in communication
- arxiv url: http://arxiv.org/abs/2604.21935v1
- Date: Mon, 30 Mar 2026 08:28:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.14423
- Title: Math Takes Two: A test for emergent mathematical reasoning in communication
- Title(参考訳): Math Takes Two: コミュニケーションにおける創発的数学的推論のテスト
- Authors: Michael Cooper, Samuel Cooper,
- Abstract要約: Math Takes Twoは、コミュニケーションによる数学的推論の出現を評価するために設計された新しいベンチマークである。
ヒトの数学的認知は、正確なコミュニケーションの必要性に共進化したという仮説に触発され、我々のベンチマークは、従来の数学的知識のない2つのエージェントが共通のシンボルプロトコルを開発できるかどうかを検証した。
- 参考スコア(独自算出の注目度): 1.2891210250935148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although language models demonstrate remarkable proficiency on mathematical benchmarks, it remains unclear whether this reflects true mathematical reasoning or statistical pattern matching over learning formal syntax. Most existing evaluations rely on symbolic problems grounded in established mathematical conventions, limiting insight into the models' ability to construct abstract concepts from first principles. In this work, we propose Math Takes Two, a new benchmark designed to assess the emergence of mathematical reasoning through communication. Motivated by the hypothesis that mathematical cognition in humans co-evolved with the need for precise communication, our benchmark tests whether two agents, without prior mathematical knowledge, can develop a shared symbolic protocol to solve a visually grounded task where the use of a numerical system facilitates extrapolation. Unlike many current datasets, our benchmark eschews predefined mathematical language, instead requiring agents to discover latent structure and representations from scratch. Math Takes Two thus provides a novel lens through which to develop and evaluate models with emergent numerical reasoning capabilities.
- Abstract(参考訳): 言語モデルは数学的なベンチマークにおいて顕著な習熟度を示すが、それが真の数学的推論や形式構文の学習よりも統計的パターンマッチングを反映しているかどうかは不明である。
既存の評価のほとんどは、確立された数学的慣習に根ざした象徴的な問題に依存しており、モデルが第一原理から抽象的な概念を構築する能力についての洞察を制限している。
本研究では,コミュニケーションによる数学的推論の出現を評価するための新しいベンチマークであるMath Takes Twoを提案する。
人間の数学的認知は、正確なコミュニケーションの必要性が伴うという仮説により、我々のベンチマークテストでは、事前の数学的知識のない2つのエージェントが、数値システムの使用によって外挿が容易になるような視覚的な課題を解決するための共有シンボルプロトコルを開発できるかどうかを検証した。
現在の多くのデータセットとは異なり、ベンチマークでは事前に定義された数学的言語を抽出し、代わりにエージェントがスクラッチから潜在構造や表現を発見する必要がある。
すなわち、Math Takes Twoは、創発的な数値推論能力を持つモデルの開発と評価を行う新しいレンズを提供する。
関連論文リスト
- Rethinking Math Reasoning Evaluation: A Robust LLM-as-a-Judge Framework Beyond Symbolic Rigidity [6.81322477138385]
そこで本研究では,モデル生成解を評価するために,ルールベースの記号数学比較の代替案を提案する。
我々のフレームワークはより信頼性の高い評価とベンチマークを可能にし、より正確なパフォーマンス監視を可能にします。
論文 参考訳(メタデータ) (2026-04-24T14:25:01Z) - MathBench: Evaluating the Theory and Application Proficiency of LLMs with a Hierarchical Mathematics Benchmark [82.64129627675123]
MathBenchは、大規模言語モデルの数学的能力を厳格に評価する新しいベンチマークである。
MathBenchは幅広い数学の分野にまたがっており、理論的な理解と実践的な問題解決のスキルの両方を詳細に評価している。
論文 参考訳(メタデータ) (2024-05-20T17:52:29Z) - ConceptMath: A Bilingual Concept-wise Benchmark for Measuring
Mathematical Reasoning of Large Language Models [67.32868432113587]
本稿では,Large Language Models (LLMs) の概念的数学的推論を評価するための詳細なベンチマークであるConceptMathを紹介する。
一般的な数学的推論を平均精度で評価する従来のベンチマークとは異なり、ConceptMathは数学の問題を数学的概念の階層の下に体系的に整理する。
論文 参考訳(メタデータ) (2024-02-22T16:06:49Z) - Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。
我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。
我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文 参考訳(メタデータ) (2023-06-02T17:12:25Z) - A Survey of Deep Learning for Mathematical Reasoning [71.88150173381153]
我々は過去10年間の数学的推論とディープラーニングの交差点における重要なタスク、データセット、方法についてレビューする。
大規模ニューラルネットワークモデルの最近の進歩は、新しいベンチマークと、数学的推論にディープラーニングを使用する機会を開放している。
論文 参考訳(メタデータ) (2022-12-20T18:46:16Z) - Mathematical Reasoning via Self-supervised Skip-tree Training [17.48858100144651]
数学的公式に適用された自己教師型言語モデリングが論理的推論を可能にするかどうかを検討する。
フォーマルな数学的ステートメントに基づいて訓練された言語モデルを評価するために,いくつかの論理的推論タスクを提案する。
スキップツリータスクで訓練されたモデルは驚くほど強力な数学的推論能力を示す。
論文 参考訳(メタデータ) (2020-06-08T17:12:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。