論文の概要: MiRAGE: Misconception Detection with Retrieval-Guided Multi-Stage Reasoning and Ensemble Fusion
- arxiv url: http://arxiv.org/abs/2511.01182v1
- Date: Mon, 03 Nov 2025 03:17:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.09664
- Title: MiRAGE: Misconception Detection with Retrieval-Guided Multi-Stage Reasoning and Ensemble Fusion
- Title(参考訳): MiRAGE: Retrieval-Guided Multi-Stage Reasoning and Ensemble Fusionによる誤認識検出
- Authors: Cuong Van Duc, Thai Tran Quoc, Minh Nguyen Dinh Tuan, Tam Vu Duc, Son Nguyen Van, Hanh Nguyen Thi,
- Abstract要約: MiRAGEは数学における誤解の自動検出のための新しいフレームワークである。
1)Retrievalモジュールは、大きな候補プールを意味的に関連するサブセットに絞り込み、(2)Reasoningモジュールは、学生ソリューションにおける論理的不整合を明らかにする。
数学のデータセットにおいて、MiRAGEは平均精度スコア0.82/0.92/0.93をレベル1/3/5で達成し、個々のモジュールを一貫して上回る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting student misconceptions in open-ended responses is a longstanding challenge, demanding semantic precision and logical reasoning. We propose MiRAGE - Misconception Detection with Retrieval-Guided Multi-Stage Reasoning and Ensemble Fusion, a novel framework for automated misconception detection in mathematics. MiRAGE operates in three stages: (1) a Retrieval module narrows a large candidate pool to a semantically relevant subset; (2) a Reasoning module employs chain-of-thought generation to expose logical inconsistencies in student solutions; and (3) a Reranking module refines predictions by aligning them with the reasoning. These components are unified through an ensemble-fusion strategy that enhances robustness and interpretability. On mathematics datasets, MiRAGE achieves Mean Average Precision scores of 0.82/0.92/0.93 at levels 1/3/5, consistently outperforming individual modules. By coupling retrieval guidance with multi-stage reasoning, MiRAGE reduces dependence on large-scale language models while delivering a scalable and effective solution for educational assessment.
- Abstract(参考訳): オープンエンド応答における学生の誤解を検出することは、意味的精度と論理的推論を必要とする長年にわたる課題である。
数学におけるミスコンセプションの自動検出のための新しいフレームワークであるMiRAGE-Misconception Detection with Retrieval-Guided Multi-Stage Reasoning and Ensemble Fusionを提案する。
MiRAGE は,(1) Retrieval モジュールが大きな候補プールを意味的に関連するサブセットに絞り込む,(2) Reasoning モジュールが学生ソリューションの論理的不整合を明らかにするためにチェーン・オブ・シンキング ジェネレーションを利用する,(3) Relevel モジュールが推論を洗練させる,という3つの段階で動作する。
これらのコンポーネントは、堅牢性と解釈可能性を高めるアンサンブル融合戦略によって統合される。
数学のデータセットにおいて、MiRAGEは平均精度スコア0.82/0.92/0.93をレベル1/3/5で達成し、個々のモジュールを一貫して上回る。
検索指導と多段階推論を組み合わせることで、MiRAGEは大規模言語モデルへの依存を減らすと同時に、スケーラブルで効果的な教育評価ソリューションを提供する。
関連論文リスト
- From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization [62.07990937720985]
DRM(Dimension-level Reward Model)は、大規模言語モデルのための新しい監視フレームワークである。
DRMは3つの基本的、相補的、解釈可能な次元に沿って推論プロセスの品質を評価する。
実験の結果、DRMは効果的な監視信号を提供し、LCMの最適化を誘導し、推論能力を向上することが示された。
論文 参考訳(メタデータ) (2025-10-13T14:29:15Z) - Dual-Stage Reweighted MoE for Long-Tailed Egocentric Mistake Detection [85.0189917888094]
本稿では,微妙で頻繁なミスによって生じる課題に対処するため,Dual-Stage Reweighted Mixture-of-Experts (DR-MoE) フレームワークを提案する。
提案手法は,特に稀かつ曖昧な誤りの特定において,高い性能を達成する。
論文 参考訳(メタデータ) (2025-09-16T12:00:42Z) - Coherent Multimodal Reasoning with Iterative Self-Evaluation for Vision-Language Models [4.064135211977999]
大規模言語モデル (LLMs) と視覚言語モデル (LVLMs) は複雑で多段階のクロスモーダルな常識推論タスクに苦しむ。
我々は,LVLMの共通感覚推論能力を高める新しいアプローチであるコヒーレント・マルチモーダル推論フレームワーク(CMRF)を提案する。
CMRFは複雑なクエリを分解し、ステップバイステップの推論を生成し、エラーを自己修正することで人間の問題解決を模倣する。
論文 参考訳(メタデータ) (2025-08-04T20:33:58Z) - From Sufficiency to Reflection: Reinforcement-Guided Thinking Quality in Retrieval-Augmented Reasoning for LLMs [13.410543801811992]
本稿では既存のRAG推論モデルを分析し,3つの障害パターンを同定する。
本稿では,思考検索と多次元報酬システムを用いた新しいフレームワークTIRESRAG-R1を提案する。
4つのマルチホップQAデータセットの実験により、TIRESRAG-R1はRAG法よりも優れており、シングルホップタスクに適していることが示された。
論文 参考訳(メタデータ) (2025-07-30T14:29:44Z) - Towards Generalizable Forgery Detection and Reasoning [23.858913560970866]
We formulate detection and explanation as a unified forgery Detection and Reasoning task (FDR-Task)
マルチモーダル・フォージェリー推論データセット (MMFR-Dataset) は10つの生成モデルにわたる120K画像を含む大規模データセットであり, フォージェリー属性には378Kの推論アノテーションがある。
複数の生成モデルに対する実験により、FakeReasoningは堅牢な一般化を実現し、検出タスクと推論タスクの両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-03-27T06:54:06Z) - FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving [90.88021670297664]
FINEREASONは、大規模言語モデルの推論能力を評価するための論理パズルベンチマークである。
状態チェックと状態遷移という2つのタスクを導入し、モデルが現在の状況をどのように評価するかを総合的に評価し、次の動きを計画する。
状態チェックと遷移データに基づいてトレーニングされたモデルでは、GSM8Kで最大5.1%の精度で数学推論が向上することを示す。
論文 参考訳(メタデータ) (2025-02-27T16:23:25Z) - Vision-Language Models Can Self-Improve Reasoning via Reflection [20.196406628954303]
CoT(Chain-of-Thought)は,大規模言語モデル(LLM)の推論能力の向上を実証した。
本稿では,自己学習フレームワークR3Vを提案する。このフレームワークは,CoTレーショナル上でのリフレクションにより,モデルの視覚言語推論を反復的に強化する。
提案手法は, 生成した解に対する自己回帰をサポートし, テスト時間計算による性能向上を図っている。
論文 参考訳(メタデータ) (2024-10-30T14:45:00Z) - SCREWS: A Modular Framework for Reasoning with Revisions [58.698199183147935]
我々は、リビジョンを伴う推論のためのモジュラーフレームワークであるSCREWSを紹介する。
我々は、SCREWSが、共通のフレームワークの下で、いくつかの以前のアプローチを統合することを示す。
我々は,多種多様な推論タスクに基づいて,最先端のLCMを用いてフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-09-20T15:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。