論文の概要: Investigating the Robustness of LLMs on Math Word Problems
- arxiv url: http://arxiv.org/abs/2406.15444v1
- Date: Thu, 30 May 2024 18:07:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 07:01:19.492978
- Title: Investigating the Robustness of LLMs on Math Word Problems
- Title(参考訳): 数学語問題におけるLLMのロバスト性の検討
- Authors: Ujjwala Anantheswaran, Himanshu Gupta, Kevin Scaria, Shreyas Verma, Chitta Baral, Swaroop Mishra,
- Abstract要約: 大規模言語モデルは数学用語の問題を解くのに優れるが、無関係な情報を含む現実世界の問題に苦戦する。
本稿では,無関係な変数を追加することで,MWPの逆変分を生成するプロンプトフレームワークを提案する。
敵の訓練インスタンスの微調整は、敵のMWPのパフォーマンスを8%向上させる。
- 参考スコア(独自算出の注目度): 52.99006895757801
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) excel at various tasks, including solving math word problems (MWPs), but struggle with real-world problems containing irrelevant information. To address this, we propose a prompting framework that generates adversarial variants of MWPs by adding irrelevant variables. We introduce a dataset, ProbleMATHIC, containing both adversarial and non-adversarial MWPs. Our experiments reveal that LLMs are susceptible to distraction by numerical noise, resulting in an average relative performance drop of ~26% on adversarial MWPs. To mitigate this, we fine-tune LLMs (Llama-2, Mistral) on the adversarial samples from our dataset. Fine-tuning on adversarial training instances improves performance on adversarial MWPs by ~8%, indicating increased robustness to noise and better ability to identify relevant data for reasoning. Finally, to assess the generalizability of our prompting framework, we introduce GSM-8K-Adv, an adversarial variant of the GSM-8K benchmark. LLMs continue to struggle when faced with adversarial information, reducing performance by up to ~6%.
- Abstract(参考訳): 大規模言語モデル(LLMs)は、数学用語問題(MWPs)の解決など、様々なタスクに優れるが、無関係な情報を含む現実世界の問題に苦慮する。
そこで本稿では,無関係な変数を追加することにより,MWPの逆変量を生成するプロンプトフレームワークを提案する。
本稿では,対戦型MWPと非対戦型MWPの両方を含むデータセットProbleMATHICを紹介する。
実験の結果,LLMは数値ノイズによる乱れの影響を受けやすいことが明らかとなり,対向MWPでは平均26%の相対的な性能低下がみられた。
これを軽減するために、データセットの対向サンプルにLLM(Llama-2, Mistral)を微調整する。
敵のトレーニングインスタンスの微調整により、敵のMWPのパフォーマンスが約8%向上し、ノイズに対する堅牢性が向上し、推論のための関連データを識別する能力が向上した。
最後に、我々のプロンプトフレームワークの一般化性を評価するため、GSM-8Kベンチマークの逆変種であるGSM-8K-Advを紹介する。
LLMは敵対的な情報に直面すると苦労し続け、パフォーマンスは最大6%低下した。
関連論文リスト
- Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。
Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。
中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文 参考訳(メタデータ) (2024-11-09T15:12:28Z) - LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。
オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。
この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文 参考訳(メタデータ) (2024-10-09T01:25:10Z) - Exposing the Achilles' Heel: Evaluating LLMs Ability to Handle Mistakes in Mathematical Reasoning [11.63133816413199]
大言語モデル (LLM) は数学語問題 (MWP) に適用されている。
本稿では,ルールベース手法とより小さな言語モデルにより生成される正しい推論ステップと誤推論ステップをMWPに組み込んだ,新しいデータセットMWP-MISTAKEを提案する。
GPT-$oの誤り検出と修正における優れた性能と、より小さなモデルで直面する永続的な課題を強調した。
論文 参考訳(メタデータ) (2024-06-16T08:06:05Z) - DefAn: Definitive Answer Dataset for LLMs Hallucination Evaluation [39.857198257988685]
大規模言語モデル(LLM)は、日常生活のアプリケーションにおけるAIの統合に革命をもたらしている。
彼らは幻覚を起こしやすく、確立した事実に矛盾する主張を生じさせ、同じプロンプトが複数回提示されたときに矛盾する反応を生じさせる。
本稿では,8つの領域にまたがる75,000以上のプロンプトからなる総合ベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2024-06-13T14:18:13Z) - Can LLMs Solve longer Math Word Problems Better? [47.227621867242]
大規模言語モデル(LLM)の能力評価にはMWP(Math Word Problems)が不可欠である
この研究は、文脈長一般化可能性(CoLeG)の探索の先駆者である。
これらの問題を解決する上で, LLMの有効性とレジリエンスを評価するために, 2つの新しい指標が提案されている。
論文 参考訳(メタデータ) (2024-05-23T17:13:50Z) - Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Solvers for Math Word Problems [50.76385564061713]
CoT(Chain-of-Thought)のプロンプトにより、さまざまな推論タスクにわたるLLM(Large Language Models)のパフォーマンスが向上した。
CoTは通常、セマンティックな誤解エラー、計算エラー、ステップミスという3つの落とし穴に悩まされる。
意味的誤解の誤りに対処し,LLMの数学的問題解決能力を改善するために,DUP(Deeply Understanding the Problems)を提案する。
論文 参考訳(メタデータ) (2024-04-23T12:16:05Z) - What Makes Math Word Problems Challenging for LLMs? [5.153388971862429]
数学語問題(MWP)の重要な言語的・数学的特徴を詳細に分析する。
大型言語モデル(LLM)におけるMWPの全体的な難しさに対する各特徴の影響をよりよく理解するために、特徴ベースの分類器を訓練する。
論文 参考訳(メタデータ) (2024-03-17T23:18:40Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Adversarial Examples for Evaluating Math Word Problem Solvers [4.266990593059533]
MWP(Math Word Problem)は、ベンチマークデータセット上で高い性能を達成している。
既存のMWPソルバが言語を真に理解している範囲と数との関係はいまだ不明である。
我々は、最先端のMWPソルバの堅牢性を評価するために、敵攻撃を生成する。
論文 参考訳(メタデータ) (2021-09-13T12:47:40Z) - Are NLP Models really able to Solve Simple Math Word Problems? [7.433931244705934]
MWP で質問された質問にアクセスできない MWP の解法は依然として MWP の大部分を解けることを示す。
既存のデータセットから抽出したサンプルに対して、慎重に選択されたバリエーションを適用して作成するチャレンジデータセットSVAMPを導入する。
最先端モデルによって達成される最高の精度はSVAMPよりも大幅に低いため、MWPの最も単純なモデルでも多くの処理が可能であることが示される。
論文 参考訳(メタデータ) (2021-03-12T10:23:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。