論文の概要: Paraphrase and Solve: Exploring and Exploiting the Impact of Surface Form on Mathematical Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2404.11500v1
- Date: Wed, 17 Apr 2024 15:53:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 13:16:00.107602
- Title: Paraphrase and Solve: Exploring and Exploiting the Impact of Surface Form on Mathematical Reasoning in Large Language Models
- Title(参考訳): パラフレーズと解法:大規模言語モデルの数学的推論における表面形状の影響を探索・展開する
- Authors: Yue Zhou, Yada Zhu, Diego Antognini, Yoon Kim, Yang Zhang,
- Abstract要約: 本研究では,問題の表面形状と解答可能性との関係について,大規模言語モデルを用いて検討する。
本稿では,問題の表面形状から推論経路を多様化する自己整合的パラフレーズ(SCoP)を提案する。
- 参考スコア(独自算出の注目度): 33.91763946767206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper studies the relationship between the surface form of a mathematical problem and its solvability by large language models. We find that subtle alterations in the surface form can significantly impact the answer distribution and the solve rate, exposing the language model's lack of robustness and sensitivity to the surface form in reasoning through complex problems. To improve mathematical reasoning performance, we propose Self-Consistency-over-Paraphrases (SCoP), which diversifies reasoning paths from specific surface forms of the problem. We evaluate our approach on four mathematics reasoning benchmarks over three large language models and show that SCoP improves mathematical reasoning performance over vanilla self-consistency, particularly for problems initially deemed unsolvable. Finally, we provide additional experiments and discussion regarding problem difficulty and surface forms, including cross-model difficulty agreement and paraphrasing transferability, and Variance of Variations (VOV) for language model evaluation.
- Abstract(参考訳): 本稿では,問題の表面形状と大規模言語モデルによる可解性との関係について検討する。
表面形状の微妙な変化は解答分布や解答率に大きく影響し, 複雑な問題による解析において, 言語モデルが表面形状に対して頑健さと感度を欠いていることを明らかにする。
数学的推論性能を向上させるために,問題の表面形状から推論経路を多様化する自己整合的パラフレーズ (Self-Consistency-over-Paraphrases, SCoP) を提案する。
我々は3つの大言語モデルに対する4つの数学推論ベンチマークに対するアプローチを評価し、SCoPがバニラ自己整合性よりも数学的推論性能を改善することを示す。
最後に,問題難易度と表面形状に関する追加実験と議論を行い,言語モデル評価のためのクロスモデル難易度合意とパラフレーズ伝達可能性,変分変動(VOV)について述べる。
関連論文リスト
- Solving the Clustering Reasoning Problems by Modeling a Deep-Learning-Based Probabilistic Model [1.7955614278088239]
我々は,Bongard-Logoで高い推論精度を実現する深層学習に基づく確率モデルであるPMoCを紹介する。
また,複雑な視覚的抽象的推論タスクのためのPose-Transformerを設計した。
論文 参考訳(メタデータ) (2024-03-05T18:08:29Z) - GeomVerse: A Systematic Evaluation of Large Models for Geometric
Reasoning [17.61621287003562]
幾何学問題のレンズを用いて視覚言語モデル(VLM)を様々な軸に沿って評価する。
複数の軸に沿った制御可能な難易度を持つ幾何学的質問の合成データセットを手続き的に作成する。
最新のVLMのベンチマークを用いて得られた実験結果から,これらのモデルが幾何学的対象に適さないことが示された。
論文 参考訳(メタデータ) (2023-12-19T15:25:39Z) - Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer [59.43462055143123]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。
本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。
我々は,各専門家が他の専門家に分散された部分空間への方向を更新するように促す訓練戦略を交互に提案する。
論文 参考訳(メタデータ) (2023-10-15T07:20:28Z) - Knowledge-Based Counterfactual Queries for Visual Question Answering [0.0]
本稿では,VQAモデルの動作を説明するための系統的手法を提案する。
そこで我々は,言語的モダリティをターゲットとした決定論的,最適,制御可能な単語レベルの置換を行うために,構造化知識ベースを利用する。
次に、そのような反実的な入力に対するモデルの応答を評価する。
論文 参考訳(メタデータ) (2023-03-05T08:00:30Z) - UniGeo: Unifying Geometry Logical Reasoning via Reformulating
Mathematical Expression [127.68780714438103]
計算と証明の2つの主要な幾何学問題は、通常2つの特定のタスクとして扱われる。
我々は4,998の計算問題と9,543の証明問題を含むUniGeoという大規模統一幾何問題ベンチマークを構築した。
また,複数タスクの幾何変換フレームワークであるGeoformerを提案し,計算と証明を同時に行う。
論文 参考訳(メタデータ) (2022-12-06T04:37:51Z) - A Causal Framework to Quantify the Robustness of Mathematical Reasoning
with Language Models [81.15974174627785]
入力空間における直接的介入に対する頑健さと感度の観点から言語モデルの振舞いについて検討する。
しかし, GPT-3 Davinciモデル(175B)は, 他のGPTモデルと比較して, 頑健さと感度の両面で劇的な改善を実現している。
論文 参考訳(メタデータ) (2022-10-21T15:12:37Z) - Thinking Aloud: Dynamic Context Generation Improves Zero-Shot Reasoning
Performance of GPT-2 [6.037255578530709]
動的問題解明は,推論と自然言語推論のタスクにおいて,gpt-2のゼロショット性能を大幅に改善することを示す。
特に、元の問題記述に最も忠実な説明は、精度を最大24%向上させる可能性がある。
論文 参考訳(メタデータ) (2021-03-24T07:33:25Z) - SMART: A Situation Model for Algebra Story Problems via Attributed
Grammar [74.1315776256292]
本稿では, 問題解決における人間の精神状態を表現する心理学研究から生まれた, emphsituation modelの概念を紹介する。
提案モデルでは,より優れた解釈性を保ちながら,従来のすべてのニューラルソルバを大きなマージンで上回る結果が得られた。
論文 参考訳(メタデータ) (2020-12-27T21:03:40Z) - Accounting for Unobserved Confounding in Domain Generalization [107.0464488046289]
本稿では,データセットの組み合わせから頑健で一般化可能な予測モデルを学習する際の問題点について検討する。
堅牢なモデルを学ぶことの課題の一部は、保存されていない共同設立者の影響にある。
異なるモダリティの医療データに対するアプローチの実証的性能を実証する。
論文 参考訳(メタデータ) (2020-07-21T08:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。