論文の概要: Iterative LLM-Based Generation and Refinement of Distracting Conditions in Math Word Problems
- arxiv url: http://arxiv.org/abs/2510.08615v1
- Date: Wed, 08 Oct 2025 01:26:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.197608
- Title: Iterative LLM-Based Generation and Refinement of Distracting Conditions in Math Word Problems
- Title(参考訳): 数学語問題における繰り返しLLMに基づく抽出条件の生成と再定義
- Authors: Kaiqi Yang, Hang Li, Yucheng Chu, Zitao Liu, Mi Tian, Hui Liu,
- Abstract要約: 数学語問題(MWP)は最も広く使われている形式の一つである。
既存のMWPデータセットの多くは必要な情報のみを含む。
我々は,複数の視点と認知レベルからMWPを改訂する一連のプロンプトを開発する。
私たちのフレームワークの重要な利点は、オリジナルの問題と修正された問題の間の共有ソリューションの保存です。
- 参考スコア(独自算出の注目度): 10.872987322381894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mathematical reasoning serves as a crucial testbed for evaluating the intelligence of large language models (LLMs), and math word problems (MWPs) represent one of the most widely used formats. Most existing MWP datasets contain only the necessary information, while problems with distracting or excessive conditions are often overlooked. Prior studies have shown that popular LLMs experience a dramatic performance drop when such distracting conditions are introduced. However, available datasets of MWPs with distracting conditions remain limited, and most exhibit low difficulty and out-of-context expressions. These shortcomings make the distracting conditions easy to detect and disregard, thereby reducing the credibility of benchmarking on these datasets. Moreover, when distracting conditions are added, the reasoning process and answers may change, requiring intensive manual effort to check and rewrite solutions. To address these issues, we design an iterative framework that leverages LLMs to generate distracting conditions automatically. We develop a set of prompts to revise MWPs from multiple perspectives and cognitive levels, encouraging the creation of meaningful distracting conditions as well as suggestions for further refinement. A key advantage of our framework is the preservation of shared solutions between the original and revised problems: the LLMs are explicitly guided to generate distractions that do not alter the original solution, thus eliminating the need to produce new answers. This framework is efficient and easy to deploy, substantially reducing the effort required to generate MWPs with distracting conditions while maintaining high data quality.
- Abstract(参考訳): 数学的推論は、大規模言語モデル(LLM)の知性を評価する上で重要なテストベッドとして機能し、数学用語問題(MWP)は最も広く使われているフォーマットの1つである。
既存のMWPデータセットの多くは必要な情報しか含まないが、乱れや過剰な条件の問題は見過ごされがちである。
以前の研究では、人気のあるLLMはそのような気を散らす条件が導入されたときに劇的な性能低下を経験していることが示されている。
しかし、不注意な条件で利用可能なMWPのデータセットは限定的であり、ほとんどの場合、難易度が低く、文脈外表現である。
これらの欠点は、気を散らす条件を検出および無視しやすくすることで、これらのデータセット上でのベンチマークの信頼性を低下させる。
さらに、気を散らす条件が加えられると、推論プロセスと答えが変わり、ソリューションのチェックと書き直しに集中的な手作業が必要になる。
これらの問題に対処するために, LLM を利用した反復的フレームワークを設計し, 自動的に気を散らす条件を生成する。
我々は,複数の視点と認知レベルからMWPを改訂する一連のプロンプトを開発し,有意義な気晴らし条件の創出を奨励するとともに,さらなる改良を提案する。
我々のフレームワークの主な利点は、元の問題と修正された問題の共有ソリューションの保存である。
このフレームワークは効率的でデプロイが容易で、高いデータ品質を維持しながら、邪魔な条件でMWPを生成するのに必要な労力を大幅に削減する。
関連論文リスト
- From Abstract to Contextual: What LLMs Still Cannot Do in Mathematics [79.81905350372067]
我々は文脈的数学的推論を通してギャップを研究する。
AIMEとMATH-500の問題を2つのコンテキスト設定に再利用するベンチマークであるContextMATHを紹介する。
オープンソースモデルはSGとCSで13、34ポイント減少し、プロプライエタリモデルは13、20ポイント減少している。
論文 参考訳(メタデータ) (2026-01-30T14:56:04Z) - ReliableMath: Benchmark of Reliable Mathematical Reasoning on Large Language Models [70.33764118171463]
大きな言語モデル(LLM)は、解決不可能な問題やその能力を超える問題に直面した時に、信頼できない応答を作る傾向があります。
我々はオープンソースの解決可能問題と高品質の未解決問題を含むReliableMathデータセットを開発した。
LLMは解決不可能な問題を直接特定できず、常に生成された応答を生成する。
論文 参考訳(メタデータ) (2025-07-03T19:19:44Z) - ONLY: One-Layer Intervention Sufficiently Mitigates Hallucinations in Large Vision-Language Models [67.75439511654078]
LVLM(Large Vision-Language Models)は、テキスト応答による画像入力の理解と推論のための新しいパラダイムを導入している。
彼らは幻覚という永続的な課題に直面しており、現実のアプリケーションに信頼性のあるデプロイを行うことについて懸念を抱き、実践的な弱点をもたらしている。
OnLYは,1つのクエリと1層の介入しか必要とせず,効率的なリアルタイムデプロイメントを実現するためのトレーニング不要なデコーディング手法である。
論文 参考訳(メタデータ) (2025-07-01T16:01:08Z) - Elementary Math Word Problem Generation using Large Language Models [0.7004392422347242]
大規模言語モデル(LLM)に基づくMWP生成システムを提案する。
私たちのシステムへの唯一の入力は、必要となるMWPの数、グレード、質問の種類(加算、減算など)である。
論文 参考訳(メタデータ) (2025-06-06T10:20:56Z) - Knowledge Graphs for Enhancing Large Language Models in Entity Disambiguation [0.061446808540639365]
我々は、ゼロショットエンティティ曖昧化(ED)のためのLarge Language Models(LLM)を強化するために知識グラフを使用します。
我々は、KG内のエンティティのクラスを階層的に表現することで、候補空間とエンティティの記述を訓練し、入力プロンプトを追加の事実知識で強化する。
一般的なEDデータセットを用いた評価の結果,提案手法は非強化および記述専用拡張LDMよりも優れており,タスク固有モデルよりも適応性が高いことがわかった。
論文 参考訳(メタデータ) (2025-05-05T15:40:24Z) - A Knapsack by Any Other Name: Presentation impacts LLM performance on NP-hard problems [64.05451567422342]
自然言語で表現されたNPハード問題の集合であるEveryday Hard Optimization Problems (EHOP) のデータセットを紹介する。
EHOPには、コンピュータサイエンスの教科書(例えば、グラフカラー化)で見られる問題の定式化が含まれている。
複数のプロンプト戦略にまたがる最先端のLCMは、実生活や逆転よりも正確な教科書問題を解くことができる。
論文 参考訳(メタデータ) (2025-02-19T14:39:59Z) - Adaptive Distraction: Probing LLM Contextual Robustness with Automated Tree Search [76.54475437069395]
大きな言語モデル(LLM)は、意味的に一貫性があるがタスクに依存しないコンテキスト情報に直面している場合、元のパフォーマンスを維持するのに苦労することが多い。
本稿では,木探索に基づく動的散逸生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-03T18:43:36Z) - Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - Ask-Before-Detection: Identifying and Mitigating Conformity Bias in LLM-Powered Error Detector for Math Word Problem Solutions [16.815772962323628]
Ask-Before-Detect (AskBD) フレームワークを導入し,大規模言語モデル(LLM)を用いて適応参照ソリューションを生成し,エラー検出を強化する。
GSM8Kの200例の実験では、AskBDがバイアスを効果的に軽減し、性能を向上させることが示されている。
論文 参考訳(メタデータ) (2024-12-22T03:08:36Z) - Exposing the Achilles' Heel: Evaluating LLMs Ability to Handle Mistakes in Mathematical Reasoning [11.63133816413199]
大言語モデル (LLM) は数学語問題 (MWP) に適用されている。
本稿では,ルールベース手法とより小さな言語モデルにより生成される正しい推論ステップと誤推論ステップをMWPに組み込んだ,新しいデータセットMWP-MISTAKEを提案する。
GPT-$oの誤り検出と修正における優れた性能と、より小さなモデルで直面する永続的な課題を強調した。
論文 参考訳(メタデータ) (2024-06-16T08:06:05Z) - Cutting Through the Noise: Boosting LLM Performance on Math Word Problems [40.94606103259912]
大規模言語モデルは数学用語の問題を解くのに優れるが、無関係な情報を含む現実世界の問題に苦戦する。
本稿では,無関係な変数を追加することで,MWPの逆変分を生成するプロンプトフレームワークを提案する。
敵の訓練インスタンスの微調整は、敵のMWPのパフォーマンスを8%向上させる。
論文 参考訳(メタデータ) (2024-05-30T18:07:13Z) - RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by
Reversing Chain-of-Thought [56.558892336235914]
Reversing Chain-of-Thought (RCoT) は、大規模言語モデルの推論能力を改善する新しい手法である。
RCoTは生成したソリューションにおける事実の不整合を自動的に検出し、修正する。
手書きのきめ細かいフィードバックがLLMの推論能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-19T08:02:52Z) - Are NLP Models really able to Solve Simple Math Word Problems? [7.433931244705934]
MWP で質問された質問にアクセスできない MWP の解法は依然として MWP の大部分を解けることを示す。
既存のデータセットから抽出したサンプルに対して、慎重に選択されたバリエーションを適用して作成するチャレンジデータセットSVAMPを導入する。
最先端モデルによって達成される最高の精度はSVAMPよりも大幅に低いため、MWPの最も単純なモデルでも多くの処理が可能であることが示される。
論文 参考訳(メタデータ) (2021-03-12T10:23:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。