論文の概要: Exploring the Compositional Deficiency of Large Language Models in Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2405.06680v4
- Date: Thu, 10 Oct 2024 14:38:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-11 14:29:38.967795
- Title: Exploring the Compositional Deficiency of Large Language Models in Mathematical Reasoning
- Title(参考訳): 数学的推論における大規模言語モデルの構成的欠陥の探索
- Authors: Jun Zhao, Jingqi Tong, Yurong Mou, Ming Zhang, Qi Zhang, Xuanjing Huang,
- Abstract要約: 数学的推論における大規模言語モデル(LLM)の構成性について検討する。
論理的欠陥の問題は実世界では非常に稀であるため、これらはLLMの「見えない」ケースを表している。
実験の結果, LLM には必要知識の双方の構成要素があるが, これらの新規事例を扱うために, テキストbfspontanely に組み合わせることはできないことがわかった。
- 参考スコア(独自算出の注目度): 30.40415945003794
- License:
- Abstract: Human cognition exhibits systematic compositionality, the algebraic ability to generate infinite novel combinations from finite learned components, which is the key to understanding and reasoning about complex logic. In this work, we investigate the compositionality of large language models (LLMs) in mathematical reasoning. Specifically, we construct a new dataset \textsc{MathTrap} by introducing carefully designed logical traps into the problem descriptions of MATH and GSM8K. Since problems with logical flaws are quite rare in the real world, these represent "unseen" cases to LLMs. Solving these requires the models to systematically compose (1) the mathematical knowledge involved in the original problems with (2) knowledge related to the introduced traps. Our experiments show that while LLMs possess both components of requisite knowledge, they do not \textbf{spontaneously} combine them to handle these novel cases. We explore several methods to mitigate this deficiency, such as natural language prompts, few-shot demonstrations, and fine-tuning. Additionally, we test the recently released OpenAI o1 model and find that human-like `slow thinking' helps improve the compositionality of LLMs. Overall, systematic compositionality remains an open challenge for large language models.
- Abstract(参考訳): 人間の認知は体系的な構成性を示し、有限の学習された要素から無限の新しい組み合わせを生成する代数的能力は、複雑な論理について理解し、推論する鍵となる。
本研究では,大規模言語モデル(LLM)の数学的推論における構成性について検討する。
具体的には、MATH と GSM8K の問題記述に慎重に設計された論理的トラップを導入することで、新しいデータセット textsc{MathTrap} を構築する。
論理的欠陥の問題は実世界では非常に稀であるため、これらはLLMの「見えない」ケースを表している。
これらを解決するためには、(1)原問題に関わる数学的知識と(2)導入したトラップに関する知識を体系的に構成する必要がある。
実験の結果, LLM には必要知識の双方の構成要素があるが, それらを組み合わせてこれらの新規事例を扱うことはできないことがわかった。
我々は、自然言語プロンプト、数発のデモ、微調整など、この欠損を緩和するいくつかの方法を探究する。
さらに、最近リリースされたOpenAI o1モデルを検証し、人間のような「スローシンキング」がLLMの構成性を向上させることを発見した。
全体として、体系的な構成性は大きな言語モデルにとってオープンな課題である。
関連論文リスト
- CLR-Fact: Evaluating the Complex Logical Reasoning Capability of Large Language Models over Factual Knowledge [44.59258397967782]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる印象的な機能を示している。
本稿では,LLMの複雑な論理的推論能力の体系的評価について述べる。
LLMは一般世界の知識の推論に優れるが、専門分野固有の知識では重大な課題に直面している。
論文 参考訳(メタデータ) (2024-07-30T05:40:32Z) - MathOdyssey: Benchmarking Mathematical Problem-Solving Skills in Large Language Models Using Odyssey Math Data [20.31528845718877]
大規模言語モデル(LLM)は、非常に高度な自然言語理解を持ち、強力な問題解決能力を示した。
本稿では,新たに開発された"MathOdyssey"データセットを用いて,LLMの数学的問題解決能力について検討する。
論文 参考訳(メタデータ) (2024-06-26T13:02:35Z) - Limits of Deep Learning: Sequence Modeling through the Lens of Complexity Theory [15.24542569393982]
彼らの成功にもかかわらず、ディープラーニングモデルは複雑な推論と機能構成を必要とするタスクに苦しむ。
本研究では,SSM(Structured State Space Models)とTransformer(Transformer)の制約に関する理論的および実証的研究を行う。
信頼性の高い多段階推論と構成課題解決を実現するための革新的なソリューションの必要性を強調した。
論文 参考訳(メタデータ) (2024-05-26T19:33:23Z) - Evaluating LLMs' Mathematical Reasoning in Financial Document Question
Answering [53.56653281752486]
本研究では,大言語モデルによる4つの財務質問応答データセットの数学的推論について検討する。
数理推論のステップの数が増えるにつれて、テーブルの複雑さや性能の変化に対する感度に焦点をあてる。
半構造化文書に適した新しいプロンプト技術を導入する。
論文 参考訳(メタデータ) (2024-02-17T05:10:18Z) - Do Language Models Exhibit the Same Cognitive Biases in Problem Solving as Human Learners? [140.9751389452011]
本研究では,大言語モデル(LLM)の偏りを,算術語問題を解く際に,子どもに知られているものと関連づけて検討する。
我々は,これらの各テストに対して,問題特徴のきめ細かい制御を可能にするニューロシンボリックアプローチを用いて,新しい単語問題を生成する。
論文 参考訳(メタデータ) (2024-01-31T18:48:20Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - Language Models can be Logical Solvers [99.40649402395725]
論理解法の推論過程を直接エミュレートする新しい言語モデルであるLoGiPTを導入する。
LoGiPTは、導出的ソルバの見えない推論過程を明らかにして精錬することから導かれる、新しく構築された命令チューニングデータセットに基づいて微調整される。
論文 参考訳(メタデータ) (2023-11-10T16:23:50Z) - Skills-in-Context Prompting: Unlocking Compositionality in Large Language Models [68.18370230899102]
大規模言語モデル(LLM)における構成一般化能力の活用法について検討する。
我々は,これらのスキルに基礎を置く基礎的スキルと構成的事例の両方を同じプロンプト・コンテキストで示すことが重要であることを発見した。
SKiC型データを用いた微調整LDMは、ゼロショット弱強一般化を導出できることを示す。
論文 参考訳(メタデータ) (2023-08-01T05:54:12Z) - Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。
これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。
実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文 参考訳(メタデータ) (2023-05-29T23:24:14Z) - ChatABL: Abductive Learning via Natural Language Interaction with
ChatGPT [72.83383437501577]
大規模言語モデル(LLM)は、最近数学的な能力において大きな可能性を証明している。
LLMは現在、認識、言語理解、推論能力のブリッジングに困難を抱えている。
本稿では, LLMを帰納学習フレームワークに統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-21T16:23:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。