論文の概要: Paraphrase and Solve: Exploring and Exploiting the Impact of Surface Form on Mathematical Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2404.11500v1
- Date: Wed, 17 Apr 2024 15:53:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-04-18 13:16:00.107602
- Title: Paraphrase and Solve: Exploring and Exploiting the Impact of Surface Form on Mathematical Reasoning in Large Language Models
- Title(参考訳): パラフレーズと解法:大規模言語モデルの数学的推論における表面形状の影響を探索・展開する
- Authors: Yue Zhou, Yada Zhu, Diego Antognini, Yoon Kim, Yang Zhang,
- Abstract要約: 本研究では,問題の表面形状と解答可能性との関係について,大規模言語モデルを用いて検討する。
本稿では,問題の表面形状から推論経路を多様化する自己整合的パラフレーズ(SCoP)を提案する。
- 参考スコア(独自算出の注目度): 33.91763946767206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper studies the relationship between the surface form of a mathematical problem and its solvability by large language models. We find that subtle alterations in the surface form can significantly impact the answer distribution and the solve rate, exposing the language model's lack of robustness and sensitivity to the surface form in reasoning through complex problems. To improve mathematical reasoning performance, we propose Self-Consistency-over-Paraphrases (SCoP), which diversifies reasoning paths from specific surface forms of the problem. We evaluate our approach on four mathematics reasoning benchmarks over three large language models and show that SCoP improves mathematical reasoning performance over vanilla self-consistency, particularly for problems initially deemed unsolvable. Finally, we provide additional experiments and discussion regarding problem difficulty and surface forms, including cross-model difficulty agreement and paraphrasing transferability, and Variance of Variations (VOV) for language model evaluation.
- Abstract(参考訳): 本稿では,問題の表面形状と大規模言語モデルによる可解性との関係について検討する。
表面形状の微妙な変化は解答分布や解答率に大きく影響し, 複雑な問題による解析において, 言語モデルが表面形状に対して頑健さと感度を欠いていることを明らかにする。
数学的推論性能を向上させるために,問題の表面形状から推論経路を多様化する自己整合的パラフレーズ (Self-Consistency-over-Paraphrases, SCoP) を提案する。
我々は3つの大言語モデルに対する4つの数学推論ベンチマークに対するアプローチを評価し、SCoPがバニラ自己整合性よりも数学的推論性能を改善することを示す。
最後に,問題難易度と表面形状に関する追加実験と議論を行い,言語モデル評価のためのクロスモデル難易度合意とパラフレーズ伝達可能性,変分変動(VOV)について述べる。
関連論文リスト
- Multidimensional Consistency Improves Reasoning in Language Models [21.989335720239467]
複数の入力のバリエーションにまたがる応答整合性のモデルをテストするためのフレームワークを提案する。
我々は, (i) シュート順, (ii) 問題表現, (iii) 言語でのバリエーションを誘導する。
我々のフレームワークは単言語データセットGSM8Kと多言語データセットMGSMの両方、特により小さなモデルにおいて数学的推論性能を一貫して向上させる。
論文 参考訳(メタデータ) (2025-03-04T14:41:05Z) - RM-PoT: Reformulating Mathematical Problems and Solving via Program of Thoughts [13.07180561863778]
本稿では、問題修正(RM)、コード支援推論(PoT)、ドメイン認識による少ショット学習を統合した3段階のフレームワークを提案する。
提案手法はまず,入力問題を多種多様な表面形状に再構成し,構造バイアスを低減し,意味的に整合した5つの例を検索し,文脈的ガイダンスを提供する。
論文 参考訳(メタデータ) (2025-02-18T06:54:32Z) - MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations [90.07275414500154]
各種モデルにおけるMATH-P-Hardの性能低下を観察する。
また、学習した問題解決スキルを盲目的に適用する新しい形態の記憶に関する懸念も提起する。
論文 参考訳(メタデータ) (2025-02-10T13:31:46Z) - Can Language Models Rival Mathematics Students? Evaluating Mathematical Reasoning through Textual Manipulation and Human Experiments [2.0332066203780452]
我々は,LLaMA-2,LLaMA-3.1,GPT-4,Mixtralを,数学オリンピアードの経験のあるヒトの生徒や大学生と比較した。
その結果, GPT-4 に基づくモデルでは, 正解率が他のモデルよりも優れており, 問題の数学的変動は人間よりも有意に優れていた。
論文 参考訳(メタデータ) (2024-12-16T15:54:06Z) - VC Search: Bridging the Gap Between Well-Defined and Ill-Defined Problems in Mathematical Reasoning [46.25056744404318]
5000以上の不確定な数学的問題を含むPMC(Issue with Missing and Contradictory conditions)というベンチマークを開発した。
VCSEARCHは、解決不可能な問題を特定する精度を、さまざまな大きな言語モデルで少なくとも12%向上させる。
論文 参考訳(メタデータ) (2024-06-07T16:24:12Z) - Solving the Clustering Reasoning Problems by Modeling a Deep-Learning-Based Probabilistic Model [1.7955614278088239]
我々は,Bongard-Logoで高い推論精度を実現する深層学習に基づく確率モデルであるPMoCを紹介する。
また,複雑な視覚的抽象的推論タスクのためのPose-Transformerを設計した。
論文 参考訳(メタデータ) (2024-03-05T18:08:29Z) - GeomVerse: A Systematic Evaluation of Large Models for Geometric
Reasoning [17.61621287003562]
幾何学問題のレンズを用いて視覚言語モデル(VLM)を様々な軸に沿って評価する。
複数の軸に沿った制御可能な難易度を持つ幾何学的質問の合成データセットを手続き的に作成する。
最新のVLMのベンチマークを用いて得られた実験結果から,これらのモデルが幾何学的対象に適さないことが示された。
論文 参考訳(メタデータ) (2023-12-19T15:25:39Z) - Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer [59.43462055143123]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。
本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。
我々は,各専門家が他の専門家に分散された部分空間への方向を更新するように促す訓練戦略を交互に提案する。
論文 参考訳(メタデータ) (2023-10-15T07:20:28Z) - Knowledge-Based Counterfactual Queries for Visual Question Answering [0.0]
本稿では,VQAモデルの動作を説明するための系統的手法を提案する。
そこで我々は,言語的モダリティをターゲットとした決定論的,最適,制御可能な単語レベルの置換を行うために,構造化知識ベースを利用する。
次に、そのような反実的な入力に対するモデルの応答を評価する。
論文 参考訳(メタデータ) (2023-03-05T08:00:30Z) - UniGeo: Unifying Geometry Logical Reasoning via Reformulating
Mathematical Expression [127.68780714438103]
計算と証明の2つの主要な幾何学問題は、通常2つの特定のタスクとして扱われる。
我々は4,998の計算問題と9,543の証明問題を含むUniGeoという大規模統一幾何問題ベンチマークを構築した。
また,複数タスクの幾何変換フレームワークであるGeoformerを提案し,計算と証明を同時に行う。
論文 参考訳(メタデータ) (2022-12-06T04:37:51Z) - A Causal Framework to Quantify the Robustness of Mathematical Reasoning
with Language Models [81.15974174627785]
入力空間における直接的介入に対する頑健さと感度の観点から言語モデルの振舞いについて検討する。
しかし, GPT-3 Davinciモデル(175B)は, 他のGPTモデルと比較して, 頑健さと感度の両面で劇的な改善を実現している。
論文 参考訳(メタデータ) (2022-10-21T15:12:37Z) - Thinking Aloud: Dynamic Context Generation Improves Zero-Shot Reasoning
Performance of GPT-2 [6.037255578530709]
動的問題解明は,推論と自然言語推論のタスクにおいて,gpt-2のゼロショット性能を大幅に改善することを示す。
特に、元の問題記述に最も忠実な説明は、精度を最大24%向上させる可能性がある。
論文 参考訳(メタデータ) (2021-03-24T07:33:25Z) - SMART: A Situation Model for Algebra Story Problems via Attributed
Grammar [74.1315776256292]
本稿では, 問題解決における人間の精神状態を表現する心理学研究から生まれた, emphsituation modelの概念を紹介する。
提案モデルでは,より優れた解釈性を保ちながら,従来のすべてのニューラルソルバを大きなマージンで上回る結果が得られた。
論文 参考訳(メタデータ) (2020-12-27T21:03:40Z) - Accounting for Unobserved Confounding in Domain Generalization [107.0464488046289]
本稿では,データセットの組み合わせから頑健で一般化可能な予測モデルを学習する際の問題点について検討する。
堅牢なモデルを学ぶことの課題の一部は、保存されていない共同設立者の影響にある。
異なるモダリティの医療データに対するアプローチの実証的性能を実証する。
論文 参考訳(メタデータ) (2020-07-21T08:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。