論文の概要: †DAGGER: Distractor-Aware Graph Generation for Executable Reasoning in Math Problems
- arxiv url: http://arxiv.org/abs/2601.06853v1
- Date: Sun, 11 Jan 2026 10:51:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.031838
- Title: †DAGGER: Distractor-Aware Graph Generation for Executable Reasoning in Math Problems
- Title(参考訳): シュダガー: 数学問題における実行可能推論のためのディトラクタ対応グラフ生成
- Authors: Zabir Al Nazi, Shubhashis Roy Dipta, Sudipta Kar,
- Abstract要約: CoT(Chain-of-Thought)プロンプトは数学的な問題解決に広く採用されているが、その無関係な文脈下での挙動は未解明のままである。
DisTRACTMATH-BN は、MGSM と MSVAMP を意味的に一貫性があるが、計算的に無関係な情報で拡張するベンチマークである。
DAGGERは、散逸ノードの明示的なモデリングで実行可能な計算グラフ生成として数学的問題解決を再構築する。
- 参考スコア(独自算出の注目度): 1.2310602580215997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-Thought (CoT) prompting is widely adopted for mathematical problem solving, including in low-resource languages, yet its behavior under irrelevant context remains underexplored. To systematically study this challenge, we introduce DISTRACTMATH-BN, a Bangla benchmark that augments MGSM and MSVAMP with semantically coherent but computationally irrelevant information. Evaluating seven models ranging from 3B to 12B parameters, we observe substantial performance degradation under distractors: standard models drop by up to 41 points, while reasoning-specialized models decline by 14 to 20 points despite consuming five times more tokens. We propose †DAGGER, which reformulates mathematical problem solving as executable computational graph generation with explicit modeling of distractor nodes. Fine-tuning Gemma-3 models using supervised fine-tuning followed by Group Relative Policy Optimization achieves comparable weighted accuracy on augmented benchmarks while using 89 percent fewer tokens than reasoning models. Importantly, this robustness emerges without explicit training on distractor-augmented examples. Our results suggest that enforcing structured intermediate representations improves robustness and inference efficiency in mathematical reasoning compared to free-form approaches, particularly in noisy, low-resource settings.
- Abstract(参考訳): CoT(Chain-of-Thought)プロンプトは、低リソース言語を含む数学的な問題解決に広く採用されているが、その無関係な文脈下での挙動は未解明のままである。
この課題を体系的に研究するために,MGSMとMSVAMPをセマンティック・コヒーレントかつ計算的に無関係な情報で拡張するBanglaベンチマークであるDISTRACTMATH-BNを導入する。
3Bパラメータから12Bパラメータまでの7つのモデルを評価すると、標準モデルは41ポイントまで低下する一方、推論特化モデルは5倍のトークンを消費するにもかかわらず14から20ポイント減少する。
本稿では,散逸ノードを明示的にモデル化した計算グラフ生成法として,数理問題の解法を再構成した「DAGGER」を提案する。
教師付き微調整を用いた微調整 Gemma-3 モデルに続いて Group Relative Policy Optimization は、拡張ベンチマークで同等の重み付き精度を達成し、推論モデルよりも99%少ないトークンを使用する。
重要なことは、この頑丈さは、注意を散らした例を明示的に訓練することなく現れることである。
この結果から,構造化中間表現の強制は,特にノイズの多い低リソース環境において,数学的推論の堅牢性や推論効率を向上させることが示唆された。
関連論文リスト
- Once Upon an Input: Reasoning via Per-Instance Program Synthesis [19.86168542588911]
PIPS(Per-Instance Program Synthesis)は、構造的フィードバックを用いて、インスタンスレベルでプログラムを生成し、洗練する手法である。
パフォーマンスをさらに向上するため、PIPSは直接推論とプログラム合成を動的に選択する信頼度基準をインスタンス毎に組み込んでいる。
論文 参考訳(メタデータ) (2025-10-26T21:58:33Z) - Heterogeneous Graph Prompt Learning via Adaptive Weight Pruning [37.735384483052044]
グラフニューラルネットワーク(GNN)は、様々なグラフベースのタスク(ノード分類やリンク予測など)で顕著な成功を収めた。
彼らの勝利にもかかわらず、GNNは長いトレーニングや推論時間、複雑な関係を捉えるのが難しいこと、機能の抽出が不十分なことといった課題に直面している。
本稿では,グラフプロンプトとウェイトプルーニングを組み合わせた新しいフレームワークGPAWPを提案する。
論文 参考訳(メタデータ) (2025-07-12T04:12:24Z) - ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [74.37307916314407]
提案するフレームワークはConciseHintと呼ばれ,推論モデルが簡潔に話すことを継続的に奨励する。
DeepSeek-R1 および Qwen-3 シリーズを含む最先端の LRM 実験により,本手法が簡潔な推論を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2025-06-23T16:20:44Z) - Quantization Meets Reasoning: Exploring and Mitigating Degradation of Low-Bit LLMs in Mathematical Reasoning [39.56908863102256]
低ビット後の量子化は、より厳しい設定で69.81%の数学的推論を損なう。
デプロイクリティカルな2つの問題に,プロセスレベルの精度で対処する。
われわれの設定では、332のキュレートされたサンプルと1つのGPUで3~5分計算すると、完全な精度のベースラインに向かって4ビットの重み計算が引き起こされる。
論文 参考訳(メタデータ) (2025-05-16T12:11:40Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [64.74765550805024]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大84%削減し、18の推論データセットで最小限の精度ロスを達成している。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z) - Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models [102.72940700598055]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。
入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。
私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
論文 参考訳(メタデータ) (2024-03-04T16:21:54Z) - Joint Graph Learning and Model Fitting in Laplacian Regularized
Stratified Models [5.933030735757292]
ラプラシア正規化成層モデル(Laplacian regularized Stratified Model、LRSM)は、サブプロブレムの明示的または暗黙的なネットワーク構造を利用するモデルである。
本稿では,LRSMにおけるグラフ重みの重要性と感度を示し,その感度が任意に大きいことを示す。
本稿では,1つの最適化問題を解くことで,モデルパラメータを適合させながらグラフを共同学習する汎用的手法を提案する。
論文 参考訳(メタデータ) (2023-05-04T06:06:29Z) - Gaussian Graphical Model Selection for Huge Data via Minipatch Learning [1.2891210250935146]
グラフィカルモデル選択の問題を解決するために,MPGraph (Minipatch Graph) 推定器を提案する。
MPGraphは、観測とノードの両方の小さなランダムなサブセットに適合する閾値グラフ推定器の一般化である。
本アルゴリズムは有限サンプルグラフ選択の整合性を実現する。
論文 参考訳(メタデータ) (2021-10-22T21:06:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。