論文の概要: Iterative LLM-Based Generation and Refinement of Distracting Conditions in Math Word Problems
- arxiv url: http://arxiv.org/abs/2510.08615v3
- Date: Thu, 16 Oct 2025 03:40:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 11:58:42.06422
- Title: Iterative LLM-Based Generation and Refinement of Distracting Conditions in Math Word Problems
- Title(参考訳): 数学語問題における繰り返しLLMに基づく抽出条件の生成と再定義
- Authors: Kaiqi Yang, Hang Li, Yucheng Chu, Zitao Liu, Mi Tian, Hui Liu,
- Abstract要約: 我々は,大規模言語モデルを用いて注意をそらす環境を生成するための反復的フレームワークを設計する。
我々は LLM を明示的に誘導し, 元の解を変更せずに, 気を散らす条件を生成する。
このフレームワークは効率的でデプロイが容易で、邪魔な条件でMWPを生成するオーバーヘッドを低減する。
- 参考スコア(独自算出の注目度): 10.872987322381894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mathematical reasoning serves as a crucial testbed for the intelligence of large language models (LLMs), and math word problems (MWPs) are a popular type of math problems. Most MWP datasets consist of problems containing only the necessary information, while problems with distracting and excessive conditions are often overlooked. Prior works have tested popular LLMs and found a dramatic performance drop in the presence of distracting conditions. However, datasets of MWPs with distracting conditions are limited, and most suffer from lower levels of difficulty and out-of-context expressions. This makes distracting conditions easy to identify and exclude, thus reducing the credibility of benchmarking on them. Moreover, when adding distracting conditions, the reasoning and answers may also change, requiring intensive labor to check and write the solutions. To address these issues, we design an iterative framework to generate distracting conditions using LLMs. We develop a set of prompts to revise MWPs from different perspectives and cognitive levels, encouraging the generation of distracting conditions as well as suggestions for further revision. Another advantage is the shared solutions between original and revised problems: we explicitly guide the LLMs to generate distracting conditions that do not alter the original solutions, thus avoiding the need to generate new solutions. This framework is efficient and easy to deploy, reducing the overhead of generating MWPs with distracting conditions while maintaining data quality.
- Abstract(参考訳): 数学推論は、大規模言語モデル(LLM)の知性にとって重要なテストベッドとして機能し、数学用語問題(MWP)は一般的な数学問題である。
ほとんどのMWPデータセットは必要な情報のみを含む問題で構成されている。
以前の研究は、人気のあるLSMを試験し、気を散らす条件の存在下で劇的な性能低下を発見した。
しかし、散在状態のMWPのデータセットは限られており、ほとんどの場合、難易度が低く、文脈外表現に悩まされている。
これにより、気を散らす条件を識別し排除しやすくなるため、ベンチマークの信頼性が低下する。
さらに、気を散らす条件を加えると、推論と答えも変化し、ソリューションの確認と記述に集中的な労力が要る。
これらの問題に対処するために, LLM を用いて気を散らす環境を生成するための反復的枠組みを設計する。
我々は、異なる視点と認知レベルからMWPを改訂する一連のプロンプトを開発し、注意喚起条件の生成を促すとともに、さらなる改訂を提案する。
もう一つの利点は、元の問題と修正された問題の共通解である: LLMを明示的にガイドして、元の解決策を変えない邪魔な条件を発生させ、新しいソリューションを生成する必要性を避けることである。
このフレームワークは効率的でデプロイが容易で、データ品質を維持しながら、邪魔な条件でMWPを生成するオーバーヘッドを低減する。
関連論文リスト
- ONLY: One-Layer Intervention Sufficiently Mitigates Hallucinations in Large Vision-Language Models [67.75439511654078]
LVLM(Large Vision-Language Models)は、テキスト応答による画像入力の理解と推論のための新しいパラダイムを導入している。
彼らは幻覚という永続的な課題に直面しており、現実のアプリケーションに信頼性のあるデプロイを行うことについて懸念を抱き、実践的な弱点をもたらしている。
OnLYは,1つのクエリと1層の介入しか必要とせず,効率的なリアルタイムデプロイメントを実現するためのトレーニング不要なデコーディング手法である。
論文 参考訳(メタデータ) (2025-07-01T16:01:08Z) - Knowledge Graphs for Enhancing Large Language Models in Entity Disambiguation [0.061446808540639365]
我々は、ゼロショットエンティティ曖昧化(ED)のためのLarge Language Models(LLM)を強化するために知識グラフを使用します。
我々は、KG内のエンティティのクラスを階層的に表現することで、候補空間とエンティティの記述を訓練し、入力プロンプトを追加の事実知識で強化する。
一般的なEDデータセットを用いた評価の結果,提案手法は非強化および記述専用拡張LDMよりも優れており,タスク固有モデルよりも適応性が高いことがわかった。
論文 参考訳(メタデータ) (2025-05-05T15:40:24Z) - Adaptive Distraction: Probing LLM Contextual Robustness with Automated Tree Search [76.54475437069395]
大きな言語モデル(LLM)は、意味的に一貫性があるがタスクに依存しないコンテキスト情報に直面している場合、元のパフォーマンスを維持するのに苦労することが多い。
本稿では,木探索に基づく動的散逸生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-03T18:43:36Z) - Exposing the Achilles' Heel: Evaluating LLMs Ability to Handle Mistakes in Mathematical Reasoning [11.63133816413199]
大言語モデル (LLM) は数学語問題 (MWP) に適用されている。
本稿では,ルールベース手法とより小さな言語モデルにより生成される正しい推論ステップと誤推論ステップをMWPに組み込んだ,新しいデータセットMWP-MISTAKEを提案する。
GPT-$oの誤り検出と修正における優れた性能と、より小さなモデルで直面する永続的な課題を強調した。
論文 参考訳(メタデータ) (2024-06-16T08:06:05Z) - Cutting Through the Noise: Boosting LLM Performance on Math Word Problems [40.94606103259912]
大規模言語モデルは数学用語の問題を解くのに優れるが、無関係な情報を含む現実世界の問題に苦戦する。
本稿では,無関係な変数を追加することで,MWPの逆変分を生成するプロンプトフレームワークを提案する。
敵の訓練インスタンスの微調整は、敵のMWPのパフォーマンスを8%向上させる。
論文 参考訳(メタデータ) (2024-05-30T18:07:13Z) - Are NLP Models really able to Solve Simple Math Word Problems? [7.433931244705934]
MWP で質問された質問にアクセスできない MWP の解法は依然として MWP の大部分を解けることを示す。
既存のデータセットから抽出したサンプルに対して、慎重に選択されたバリエーションを適用して作成するチャレンジデータセットSVAMPを導入する。
最先端モデルによって達成される最高の精度はSVAMPよりも大幅に低いため、MWPの最も単純なモデルでも多くの処理が可能であることが示される。
論文 参考訳(メタデータ) (2021-03-12T10:23:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。