論文の概要: Paraphrase and Solve: Exploring and Exploiting the Impact of Surface Form on Mathematical Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2404.11500v1
- Date: Wed, 17 Apr 2024 15:53:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 13:16:00.107602
- Title: Paraphrase and Solve: Exploring and Exploiting the Impact of Surface Form on Mathematical Reasoning in Large Language Models
- Title(参考訳): パラフレーズと解法:大規模言語モデルの数学的推論における表面形状の影響を探索・展開する
- Authors: Yue Zhou, Yada Zhu, Diego Antognini, Yoon Kim, Yang Zhang,
- Abstract要約: 本研究では,問題の表面形状と解答可能性との関係について,大規模言語モデルを用いて検討する。
本稿では,問題の表面形状から推論経路を多様化する自己整合的パラフレーズ(SCoP)を提案する。
- 参考スコア(独自算出の注目度): 33.91763946767206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper studies the relationship between the surface form of a mathematical problem and its solvability by large language models. We find that subtle alterations in the surface form can significantly impact the answer distribution and the solve rate, exposing the language model's lack of robustness and sensitivity to the surface form in reasoning through complex problems. To improve mathematical reasoning performance, we propose Self-Consistency-over-Paraphrases (SCoP), which diversifies reasoning paths from specific surface forms of the problem. We evaluate our approach on four mathematics reasoning benchmarks over three large language models and show that SCoP improves mathematical reasoning performance over vanilla self-consistency, particularly for problems initially deemed unsolvable. Finally, we provide additional experiments and discussion regarding problem difficulty and surface forms, including cross-model difficulty agreement and paraphrasing transferability, and Variance of Variations (VOV) for language model evaluation.
- Abstract(参考訳): 本稿では,問題の表面形状と大規模言語モデルによる可解性との関係について検討する。
表面形状の微妙な変化は解答分布や解答率に大きく影響し, 複雑な問題による解析において, 言語モデルが表面形状に対して頑健さと感度を欠いていることを明らかにする。
数学的推論性能を向上させるために,問題の表面形状から推論経路を多様化する自己整合的パラフレーズ (Self-Consistency-over-Paraphrases, SCoP) を提案する。
我々は3つの大言語モデルに対する4つの数学推論ベンチマークに対するアプローチを評価し、SCoPがバニラ自己整合性よりも数学的推論性能を改善することを示す。
最後に,問題難易度と表面形状に関する追加実験と議論を行い,言語モデル評価のためのクロスモデル難易度合意とパラフレーズ伝達可能性,変分変動(VOV)について述べる。
関連論文リスト
- RM-PoT: Reformulating Mathematical Problems and Solving via Program of Thoughts [13.07180561863778]
本稿では、問題修正(RM)、コード支援推論(PoT)、ドメイン認識による少ショット学習を統合した3段階のフレームワークを提案する。
提案手法はまず,入力問題を多種多様な表面形状に再構成し,構造バイアスを低減し,意味的に整合した5つの例を検索し,文脈的ガイダンスを提供する。
論文 参考訳(メタデータ) (2025-02-18T06:54:32Z) - MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations [90.07275414500154]
各種モデルにおけるMATH-P-Hardの性能低下を観察する。
また、学習した問題解決スキルを盲目的に適用する新しい形態の記憶に関する懸念も提起する。
論文 参考訳(メタデータ) (2025-02-10T13:31:46Z) - LLM Reasoning Engine: Specialized Training for Enhanced Mathematical Reasoning [7.512199306943756]
数学的推論タスクにおける大規模言語モデルの能力を高めるための新しい手法を提案する。
このギャップを埋める必要性に感銘を受け、私たちのアプローチには質問パラフレーズ戦略が組み込まれています。
モデルの学習プロセスを導くために 専門的な訓練目的が 使われています。
論文 参考訳(メタデータ) (2024-12-28T17:48:33Z) - Can Language Models Rival Mathematics Students? Evaluating Mathematical Reasoning through Textual Manipulation and Human Experiments [2.0332066203780452]
我々は,LLaMA-2,LLaMA-3.1,GPT-4,Mixtralを,数学オリンピアードの経験のあるヒトの生徒や大学生と比較した。
その結果, GPT-4 に基づくモデルでは, 正解率が他のモデルよりも優れており, 問題の数学的変動は人間よりも有意に優れていた。
論文 参考訳(メタデータ) (2024-12-16T15:54:06Z) - VC Search: Bridging the Gap Between Well-Defined and Ill-Defined Problems in Mathematical Reasoning [46.25056744404318]
5000以上の不確定な数学的問題を含むPMC(Issue with Missing and Contradictory conditions)というベンチマークを開発した。
VCSEARCHは、解決不可能な問題を特定する精度を、さまざまな大きな言語モデルで少なくとも12%向上させる。
論文 参考訳(メタデータ) (2024-06-07T16:24:12Z) - Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer [59.43462055143123]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。
本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。
我々は,各専門家が他の専門家に分散された部分空間への方向を更新するように促す訓練戦略を交互に提案する。
論文 参考訳(メタデータ) (2023-10-15T07:20:28Z) - UniGeo: Unifying Geometry Logical Reasoning via Reformulating
Mathematical Expression [127.68780714438103]
計算と証明の2つの主要な幾何学問題は、通常2つの特定のタスクとして扱われる。
我々は4,998の計算問題と9,543の証明問題を含むUniGeoという大規模統一幾何問題ベンチマークを構築した。
また,複数タスクの幾何変換フレームワークであるGeoformerを提案し,計算と証明を同時に行う。
論文 参考訳(メタデータ) (2022-12-06T04:37:51Z) - A Causal Framework to Quantify the Robustness of Mathematical Reasoning
with Language Models [81.15974174627785]
入力空間における直接的介入に対する頑健さと感度の観点から言語モデルの振舞いについて検討する。
しかし, GPT-3 Davinciモデル(175B)は, 他のGPTモデルと比較して, 頑健さと感度の両面で劇的な改善を実現している。
論文 参考訳(メタデータ) (2022-10-21T15:12:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。