論文の概要: Iterative LLM-Based Generation and Refinement of Distracting Conditions in Math Word Problems
- arxiv url: http://arxiv.org/abs/2510.08615v2
- Date: Wed, 15 Oct 2025 16:08:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 13:11:49.448476
- Title: Iterative LLM-Based Generation and Refinement of Distracting Conditions in Math Word Problems
- Title(参考訳): 数学語問題における繰り返しLLMに基づく抽出条件の生成と再定義
- Authors: Kaiqi Yang, Hang Li, Yucheng Chu, Zitao Liu, Mi Tian, Hui Liu,
- Abstract要約: 数学語問題(MWP)は最も広く使われている形式の一つである。
既存のMWPデータセットの多くは必要な情報のみを含む。
我々は,複数の視点と認知レベルからMWPを改訂する一連のプロンプトを開発する。
私たちのフレームワークの重要な利点は、オリジナルの問題と修正された問題の間の共有ソリューションの保存です。
- 参考スコア(独自算出の注目度): 10.872987322381894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mathematical reasoning serves as a crucial testbed for evaluating the intelligence of large language models (LLMs), and math word problems (MWPs) represent one of the most widely used formats. Most existing MWP datasets contain only the necessary information, while problems with distracting or excessive conditions are often overlooked. Prior studies have shown that popular LLMs experience a dramatic performance drop when such distracting conditions are introduced. However, available datasets of MWPs with distracting conditions remain limited, and most exhibit low difficulty and out-of-context expressions. These shortcomings make the distracting conditions easy to detect and disregard, thereby reducing the credibility of benchmarking on these datasets. Moreover, when distracting conditions are added, the reasoning process and answers may change, requiring intensive manual effort to check and rewrite solutions. To address these issues, we design an iterative framework that leverages LLMs to generate distracting conditions automatically. We develop a set of prompts to revise MWPs from multiple perspectives and cognitive levels, encouraging the creation of meaningful distracting conditions as well as suggestions for further refinement. A key advantage of our framework is the preservation of shared solutions between the original and revised problems: the LLMs are explicitly guided to generate distractions that do not alter the original solution, thus eliminating the need to produce new answers. This framework is efficient and easy to deploy, substantially reducing the effort required to generate MWPs with distracting conditions while maintaining high data quality.
- Abstract(参考訳): 数学的推論は、大規模言語モデル(LLM)の知性を評価する上で重要なテストベッドとして機能し、数学用語問題(MWP)は最も広く使われているフォーマットの1つである。
既存のMWPデータセットの多くは必要な情報しか含まないが、乱れや過剰な条件の問題は見過ごされがちである。
以前の研究では、人気のあるLLMはそのような気を散らす条件が導入されたときに劇的な性能低下を経験していることが示されている。
しかし、不注意な条件で利用可能なMWPのデータセットは限定的であり、ほとんどの場合、難易度が低く、文脈外表現である。
これらの欠点は、気を散らす条件を検出および無視しやすくすることで、これらのデータセット上でのベンチマークの信頼性を低下させる。
さらに、気を散らす条件が加えられると、推論プロセスと答えが変わり、ソリューションのチェックと書き直しに集中的な手作業が必要になる。
これらの問題に対処するために, LLM を利用した反復的フレームワークを設計し, 自動的に気を散らす条件を生成する。
我々は,複数の視点と認知レベルからMWPを改訂する一連のプロンプトを開発し,有意義な気晴らし条件の創出を奨励するとともに,さらなる改良を提案する。
我々のフレームワークの主な利点は、元の問題と修正された問題の共有ソリューションの保存である。
このフレームワークは効率的でデプロイが容易で、高いデータ品質を維持しながら、邪魔な条件でMWPを生成するのに必要な労力を大幅に削減する。
関連論文リスト
- ONLY: One-Layer Intervention Sufficiently Mitigates Hallucinations in Large Vision-Language Models [67.75439511654078]
LVLM(Large Vision-Language Models)は、テキスト応答による画像入力の理解と推論のための新しいパラダイムを導入している。
彼らは幻覚という永続的な課題に直面しており、現実のアプリケーションに信頼性のあるデプロイを行うことについて懸念を抱き、実践的な弱点をもたらしている。
OnLYは,1つのクエリと1層の介入しか必要とせず,効率的なリアルタイムデプロイメントを実現するためのトレーニング不要なデコーディング手法である。
論文 参考訳(メタデータ) (2025-07-01T16:01:08Z) - Knowledge Graphs for Enhancing Large Language Models in Entity Disambiguation [0.061446808540639365]
我々は、ゼロショットエンティティ曖昧化(ED)のためのLarge Language Models(LLM)を強化するために知識グラフを使用します。
我々は、KG内のエンティティのクラスを階層的に表現することで、候補空間とエンティティの記述を訓練し、入力プロンプトを追加の事実知識で強化する。
一般的なEDデータセットを用いた評価の結果,提案手法は非強化および記述専用拡張LDMよりも優れており,タスク固有モデルよりも適応性が高いことがわかった。
論文 参考訳(メタデータ) (2025-05-05T15:40:24Z) - Adaptive Distraction: Probing LLM Contextual Robustness with Automated Tree Search [76.54475437069395]
大きな言語モデル(LLM)は、意味的に一貫性があるがタスクに依存しないコンテキスト情報に直面している場合、元のパフォーマンスを維持するのに苦労することが多い。
本稿では,木探索に基づく動的散逸生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-03T18:43:36Z) - Exposing the Achilles' Heel: Evaluating LLMs Ability to Handle Mistakes in Mathematical Reasoning [11.63133816413199]
大言語モデル (LLM) は数学語問題 (MWP) に適用されている。
本稿では,ルールベース手法とより小さな言語モデルにより生成される正しい推論ステップと誤推論ステップをMWPに組み込んだ,新しいデータセットMWP-MISTAKEを提案する。
GPT-$oの誤り検出と修正における優れた性能と、より小さなモデルで直面する永続的な課題を強調した。
論文 参考訳(メタデータ) (2024-06-16T08:06:05Z) - Cutting Through the Noise: Boosting LLM Performance on Math Word Problems [40.94606103259912]
大規模言語モデルは数学用語の問題を解くのに優れるが、無関係な情報を含む現実世界の問題に苦戦する。
本稿では,無関係な変数を追加することで,MWPの逆変分を生成するプロンプトフレームワークを提案する。
敵の訓練インスタンスの微調整は、敵のMWPのパフォーマンスを8%向上させる。
論文 参考訳(メタデータ) (2024-05-30T18:07:13Z) - Are NLP Models really able to Solve Simple Math Word Problems? [7.433931244705934]
MWP で質問された質問にアクセスできない MWP の解法は依然として MWP の大部分を解けることを示す。
既存のデータセットから抽出したサンプルに対して、慎重に選択されたバリエーションを適用して作成するチャレンジデータセットSVAMPを導入する。
最先端モデルによって達成される最高の精度はSVAMPよりも大幅に低いため、MWPの最も単純なモデルでも多くの処理が可能であることが示される。
論文 参考訳(メタデータ) (2021-03-12T10:23:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。