論文の概要: Investigating the interaction of linguistic and mathematical reasoning in language models using multilingual number puzzles
- arxiv url: http://arxiv.org/abs/2506.13886v1
- Date: Mon, 16 Jun 2025 18:09:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.19505
- Title: Investigating the interaction of linguistic and mathematical reasoning in language models using multilingual number puzzles
- Title(参考訳): 多言語数パズルを用いた言語モデルにおける言語的推論と数学的推論の相互作用の検討
- Authors: Antara Raaghavi Bhattacharya, Isabel Papadimitriou, Kathryn Davidson, David Alvarez-Melis,
- Abstract要約: 言語モデル (LLMs) は言語-数学のパズルと、言語間数系を含む。
言語における数値の言語的側面と数学的側面を解き放つ一連の実験を通して, LLM にとってなぜこの課題が難しいのかを考察する。
人間のスケールデータにおける暗黙のパターンから構成規則を柔軟に推論する能力は、現在の推論モデルにとってオープンな課題である。
- 参考スコア(独自算出の注目度): 8.820095911041637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Across languages, numeral systems vary widely in how they construct and combine numbers. While humans consistently learn to navigate this diversity, large language models (LLMs) struggle with linguistic-mathematical puzzles involving cross-linguistic numeral systems, which humans can learn to solve successfully. We investigate why this task is difficult for LLMs through a series of experiments that untangle the linguistic and mathematical aspects of numbers in language. Our experiments establish that models cannot consistently solve such problems unless the mathematical operations in the problems are explicitly marked using known symbols ($+$, $\times$, etc, as in "twenty + three"). In further ablation studies, we probe how individual parameters of numeral construction and combination affect performance. While humans use their linguistic understanding of numbers to make inferences about the implicit compositional structure of numerals, LLMs seem to lack this notion of implicit numeral structure. We conclude that the ability to flexibly infer compositional rules from implicit patterns in human-scale data remains an open challenge for current reasoning models.
- Abstract(参考訳): 言語全体において、数体系は数の構成と結合の仕方で大きく異なる。
人間はこの多様性を常に学習するが、大きな言語モデル(LLM)は言語と数学のパズルに苦しむ。
言語における数値の言語的側面と数学的側面を解き放つ一連の実験を通して, LLM にとってなぜこの課題が難しいのかを考察する。
我々の実験は、「20 + 3」のように既知の記号(+$, $\times$, etc)を用いて、問題の数学的操作が明示的にマークされない限り、モデルがそのような問題を解決することができないことを証明している。
さらなるアブレーション研究において、数値構成と組み合わせの個々のパラメータが性能にどのように影響するかを考察する。
人間は数字の言語学的理解を使って、数字の暗黙的な構成構造について推論するが、LLMは暗黙的な数字構造という概念を欠いているようである。
人間のスケールデータにおける暗黙のパターンから構成規則を柔軟に推論する能力は、現在の推論モデルにとってオープンな課題である。
関連論文リスト
- Frontier LLMs Still Struggle with Simple Reasoning Tasks [53.497499123166804]
この研究は、フロンティア言語モデルの性能を、幅広い「容易」推論問題に対して研究する。
計算,一階述語論理,証明木,旅行計画など,手続き的に生成された単純な推論タスクのスイートを作成します。
最先端の思考モデルでさえ、このような問題や同様の理由で一貫して失敗することを示します。
論文 参考訳(メタデータ) (2025-07-09T22:22:49Z) - Logic-of-Thought: Empowering Large Language Models with Logic Programs for Solving Puzzles in Natural Language [67.51318974970985]
自然言語でパズルを解くことは、AIにおける長年の課題である。
本稿では,大規模言語モデルを論理プログラミングでブリッジするフレームワークであるLogic-of-Thoughtを提案する。
動作を含む様々なグリッドパズルや動的パズルについて評価し、全てのタスクにおいてほぼ完璧な精度を示す。
論文 参考訳(メタデータ) (2025-05-22T01:37:40Z) - Exposing Numeracy Gaps: A Benchmark to Evaluate Fundamental Numerical Abilities in Large Language Models [19.47343987998194]
大規模言語モデル(LLM)は、自然言語処理タスクにおける印象的な機能を示している。
基本算術、数値、等級数比較などの数値推論タスクにおけるそれらの性能は、驚くほど貧弱なままである。
既存のベンチマークは主に言語能力や構造化された数学的問題解決に焦点を当てている。
論文 参考訳(メタデータ) (2025-02-16T10:48:28Z) - Lean Workbook: A large-scale Lean problem set formalized from natural language math problems [50.22847430754973]
大規模な言語モデルは、リーンのような形式言語を使って証明する数学の定理が得意ではありません。
この領域で重要な課題は、これらの形式言語で利用可能なトレーニングデータの不足である。
本稿では,自然言語の数学的問題をリーン4文に変換するために,合成データを反復的に生成・フィルタリングするパイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-06T08:25:43Z) - NUMCoT: Numerals and Units of Measurement in Chain-of-Thought Reasoning using Large Language Models [37.15662878141497]
数値と測定単位の処理において,既存のLarge Language Models (LLMs) を解析する。
まず,算術語問題を言語から数への数値変換や単位に基づく測度変換など,様々なサブプロデューサにアナライズする。
さらに,数量や単位に挑戦する古代中国の算術作品から,数学用語の問題に注釈を付ける。
論文 参考訳(メタデータ) (2024-06-05T02:26:14Z) - Exploring the Compositional Deficiency of Large Language Models in Mathematical Reasoning [30.40415945003794]
数学的推論における大規模言語モデル(LLM)の構成性について検討する。
論理的欠陥の問題は実世界では非常に稀であるため、これらはLLMの「見えない」ケースを表している。
実験の結果, LLM には必要知識の双方の構成要素があるが, これらの新規事例を扱うために, テキストbfspontanely に組み合わせることはできないことがわかった。
論文 参考訳(メタデータ) (2024-05-05T16:35:30Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - Do Language Models Exhibit the Same Cognitive Biases in Problem Solving as Human Learners? [140.9751389452011]
本研究では,大言語モデル(LLM)の偏りを,算術語問題を解く際に,子どもに知られているものと関連づけて検討する。
我々は,これらの各テストに対して,問題特徴のきめ細かい制御を可能にするニューロシンボリックアプローチを用いて,新しい単語問題を生成する。
論文 参考訳(メタデータ) (2024-01-31T18:48:20Z) - Language Models Encode the Value of Numbers Linearly [28.88044346200171]
数学の基本要素である数値を言語モデルでエンコードする方法を考察する。
実験結果は,大規模言語モデルにおける符号付き数値の存在を支持する。
我々の研究は、LLMが数値を線形にエンコードする証拠を提供する。
論文 参考訳(メタデータ) (2024-01-08T08:54:22Z) - Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。
我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。
我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文 参考訳(メタデータ) (2023-06-02T17:12:25Z) - Reflection of Thought: Inversely Eliciting Numerical Reasoning in
Language Models via Solving Linear Systems [42.782260686177395]
本稿では,事前学習言語モデルに隠された数値推論知識を抽出し,活用するための新しい手法を提案する。
まず、単純な数値をアンカーとして利用して、暗黙的に推論された算術表現を言語モデルから探索する。
我々は、解析的に解決可能な線形システムとしてタスクを変換し、定式化する。
論文 参考訳(メタデータ) (2022-10-11T00:57:19Z) - Probing for Multilingual Numerical Understanding in Transformer-Based
Language Models [0.0]
本研究では,様々な自然言語数系における数値データに対する構成的推論の証拠を探索するために,DistilBERT,XLM,BERTでテストされた新しい探索タスクを提案する。
英語,日本語,デンマーク語,フランス語の文法的判断と価値比較分類の両方を用いて,これらの事前学習されたモデルの埋め込みに符号化された情報が文法的判断には十分であるが,一般には価値比較には不十分であることを示す。
論文 参考訳(メタデータ) (2020-10-13T19:56:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。