論文の概要: A Matter of Interest: Understanding Interestingness of Math Problems in Humans and Language Models
- arxiv url: http://arxiv.org/abs/2511.08548v1
- Date: Wed, 12 Nov 2025 02:04:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.860952
- Title: A Matter of Interest: Understanding Interestingness of Math Problems in Humans and Language Models
- Title(参考訳): 問題:人間と言語モデルにおける数学問題への関心の理解
- Authors: Shubhra Mishra, Yuka Machino, Gabriel Poesia, Albert Jiang, Joy Hsu, Adrian Weller, Challenger Mishra, David Broman, Joshua B. Tenenbaum, Mateja Jamnik, Cedegao E. Zhang, Katherine M. Collins,
- Abstract要約: 多くのAIシステムは、興味深いという人間の考えに一致しているが、人間の判断で観察される分布を捉えていない。
ほとんどのLSMは、人間がある数学の問題を興味深いと感じる理由と少ししか一致せず、人間の選択した面白さの合理性と弱い相関を示す。
- 参考スコア(独自算出の注目度): 77.83082730285206
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The evolution of mathematics has been guided in part by interestingness. From researchers choosing which problems to tackle next, to students deciding which ones to engage with, people's choices are often guided by judgments about how interesting or challenging problems are likely to be. As AI systems, such as LLMs, increasingly participate in mathematics with people -- whether for advanced research or education -- it becomes important to understand how well their judgments align with human ones. Our work examines this alignment through two empirical studies of human and LLM assessment of mathematical interestingness and difficulty, spanning a range of mathematical experience. We study two groups: participants from a crowdsourcing platform and International Math Olympiad competitors. We show that while many LLMs appear to broadly agree with human notions of interestingness, they mostly do not capture the distribution observed in human judgments. Moreover, most LLMs only somewhat align with why humans find certain math problems interesting, showing weak correlation with human-selected interestingness rationales. Together, our findings highlight both the promises and limitations of current LLMs in capturing human interestingness judgments for mathematical AI thought partnerships.
- Abstract(参考訳): 数学の進化は、部分的に興味深いことに導かれてきた。
次にどの問題に取り組むかという研究者から、どの問題に取り組むかを決める学生まで、人々の選択は、いかに興味深いか、それとも難しいかという判断によって導かれることが多い。
LLMのようなAIシステムは、高度な研究であれ教育であれ、人々との数学にますます参加していくにつれて、彼らの判断が人間とどのように一致しているかを理解することが重要になる。
本研究は, 数学的面白さと難易度の評価を人間とLLMの2つの実証的研究を通じて検討し, 様々な数学的経験を網羅した。
クラウドソーシングプラットフォームの参加者とInternational Math Olympiadのコンペティターの2つのグループについて検討する。
多くのLDMが人間の興味ある概念と広く一致しているように見えるが、人間の判断で観察される分布を捉えていないことが示される。
さらに、ほとんどのLLMは、人間がある数学の問題を興味深いと感じる理由と少ししか一致せず、人間の選択した面白さの合理性と弱い相関関係を示す。
我々の研究結果は、数学的なAI思考パートナーシップのための人間の興味ある判断を捉えることにおける現在のLLMの約束と限界の両方を強調した。
関連論文リスト
- How Deep is Love in LLMs' Hearts? Exploring Semantic Size in Human-like Cognition [75.11808682808065]
本研究では,大言語モデル (LLM) が意味的サイズを理解する上で類似した傾向を示すかどうかを検討する。
以上の結果から,マルチモーダルトレーニングはLLMにとって人間的な理解を深める上で不可欠であることが示唆された。
最後に,LLMが実世界のWebショッピングシナリオにおいて,より大きなセマンティックサイズを持つ注目の見出しに影響されているかを検討する。
論文 参考訳(メタデータ) (2025-03-01T03:35:56Z) - Do Large Language Models Truly Grasp Mathematics? An Empirical Exploration From Cognitive Psychology [15.572185318032139]
提案手法は,Chains of Thoughtプロンプトを用いても,修正されたCRT問題を解く際の誤り率が高いことを示す。
具体的には、従来の質問と比べて平均精度が最大50%低下した。
この発見は、LLMが人間に匹敵する真の数学的推論能力を持っているという信念に挑戦する。
論文 参考訳(メタデータ) (2024-10-19T05:01:56Z) - Evaluating Large Vision-and-Language Models on Children's Mathematical Olympiads [74.54183505245553]
ジョイントビジョンとテキスト推論のためのAI能力の体系的分析は、現在の科学文献に欠けている。
我々は,子どものオリンピアードからのビジュオ言語問題を用いて,その数学的およびアルゴリズム的推論能力に基づいて,最先端のLVLMを評価した。
以上の結果から,近代のLVLMは,高学年の問題解決において,より強力な推論能力を示す一方で,幼児向けの問題に正しく答える基盤が欠如していることが示唆された。
論文 参考訳(メタデータ) (2024-06-22T05:04:39Z) - MacGyver: Are Large Language Models Creative Problem Solvers? [87.70522322728581]
本稿では, 現代LLMの創造的問題解決能力について, 制約付き環境下で検討する。
我々は1,600以上の実世界の問題からなる自動生成データセットであるMACGYVERを作成する。
我々はLLMと人間の両方にコレクションを提示し、それらの問題解決能力を比較して比較する。
論文 参考訳(メタデータ) (2023-11-16T08:52:27Z) - AI for Mathematics: A Cognitive Science Perspective [86.02346372284292]
数学は人間によって開発された最も強力な概念体系の1つである。
AIの急速な進歩、特に大規模言語モデル(LLM)の進歩による推進により、そのようなシステム構築に対する新たな、広範な関心が生まれている。
論文 参考訳(メタデータ) (2023-10-19T02:00:31Z) - LLMs as Potential Brainstorming Partners for Math and Science Problems [0.0]
現在の人間と機械の知的なコラボレーションと複雑な数学と科学の問題の解決の間には、依然として大きな亀裂がある。
これは、Large Language Models (LLMs) の最近の進歩によるものである。
我々は、人間との集団脳卒中において、現在最先端のLDM(特にGPT-4)の能力と限界を探求する包括的ケーススタディを実施している。
論文 参考訳(メタデータ) (2023-10-10T21:16:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。