論文の概要: When Verification Hurts: Asymmetric Effects of Multi-Agent Feedback in Logic Proof Tutoring
- arxiv url: http://arxiv.org/abs/2603.27076v1
- Date: Sat, 28 Mar 2026 01:35:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.772882
- Title: When Verification Hurts: Asymmetric Effects of Multi-Agent Feedback in Logic Proof Tutoring
- Title(参考訳): 検証ハルト:論理的チュータリングにおけるマルチエージェントフィードバックの非対称効果
- Authors: Tahreem Yasir, Sutapa Dey Tithi, Benyamin Tabarsi, Dmitri Droujkov, Sam Gilson Yasitha Rajapaksha, Xiaoyi Tian, Arun Ramesh, DongKuan, Xu, Tiffany Barnes,
- Abstract要約: 大規模言語モデル(LLM)は、自動化チュータリングにますます使われているが、構造化された記号領域における信頼性は未だ不明である。
本研究では,学習者の現在の証明状態に整合した記号的推論を必要とする命題論理導出証明のステップレベルフィードバックについて検討する。
ステップレベルのアノテーションと難易度を持つ516個のユニークな証明状態の知識グラフ付きベンチマークを導入する。
- 参考スコア(独自算出の注目度): 3.1967732711000525
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) are increasingly used for automated tutoring, but their reliability in structured symbolic domains remains unclear. We study step-level feedback for propositional logic proofs, which require precise symbolic reasoning aligned with a learner's current proof state. We introduce a knowledge-graph-grounded benchmark of 516 unique proof states with step-level annotations and difficulty metrics. Unlike prior tutoring evaluations that rely on model self-assessment or binary correctness, our framework enables fine-grained analysis of feedback quality against verified solution paths. We evaluate three role-specialized pipelines with varying solution access: Tutor (partial solution access), Teacher (full derivation access), and Judge (verification of Tutor feedback). Our results reveal a striking asymmetry: verification improves outcomes when upstream feedback is error-prone (<70% accuracy), but degrades performance by 4-6 percentage points through over-specification when feedback is already reliable (>85%). Critically, we identify a shared complexity ceiling; no model or pipeline reliably succeeds on proof states exceeding complexity 4-5. These findings challenge the assumption that adding verifiers or richer context universally improves tutoring, motivating adaptive, difficulty-aware architectures that route problems by estimated complexity and upstream reliability.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自動化チュータリングにますます使われているが、構造化された記号領域における信頼性は未だ不明である。
本研究では,学習者の現在の証明状態に整合した記号的推論を必要とする命題論理証明のステップレベルフィードバックについて検討する。
ステップレベルのアノテーションと難易度を持つ516個のユニークな証明状態の知識グラフ付きベンチマークを導入する。
モデル自己評価やバイナリの正当性に依存する事前の授業評価とは異なり、我々のフレームワークは、検証された解パスに対するフィードバック品質のきめ細かい分析を可能にする。
本研究では,チュータ(部分的ソリューションアクセス),教師(完全な派生アクセス),裁判官(チュータフィードバックの検証)の3つの役割特化パイプラインを評価した。
検証は上流からのフィードバックがエラーを起こしやすい場合(精度70%)の結果を改善するが、すでにフィードバックが信頼されている場合(>85%)、オーバースペクテーションによって性能を4~6ポイント低下させる。
モデルやパイプラインは複雑度4-5を超える証明条件で確実に成功しない。
これらの知見は、検証子やよりリッチなコンテキストを追加することで、推定複雑性と上流の信頼性によって問題をルーティングする適応的で難易度の高いアーキテクチャを学習し、モチベーションを高めるという仮定に挑戦する。
関連論文リスト
- Omanic: Towards Step-wise Evaluation of Multi-hop Reasoning in Large Language Models [60.418191092851636]
OmanicはオープンドメインのマルチホップQAリソースであり、推論プロセスを分析するための構造アノテーションとして分解されたサブクエストと中間回答を提供する。
10,296個の機械によるトレーニング例(Omanic Synth)と967個の専門家による注釈付き評価例(OmanicBench)を含む。
論文 参考訳(メタデータ) (2026-03-17T15:23:37Z) - GATES: Self-Distillation under Privileged Context with Consensus Gating [89.62339954332248]
我々は、監督が信頼できない環境で自己蒸留を研究する。
非対称な文脈で回答する文書に焦点をあてる。
複数の文書ベース推論トレースをサンプリングすることにより、教師のコンセンサスからオンラインでの監督を導出する。
論文 参考訳(メタデータ) (2026-02-24T05:56:20Z) - Learning to Repair Lean Proofs from Compiler Feedback [4.55626337217127]
教師付き学習問題としてリーン証明修復について検討する。
APRIL(Automated Proof repair in Lean)は、260,000の教師付き定理のデータセットである。
我々は、診断条件付き監視を、フィードバックを利用するプローバーのための補完的な訓練信号と見なしている。
論文 参考訳(メタデータ) (2026-02-03T01:53:56Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - VerifyBench: A Systematic Benchmark for Evaluating Reasoning Verifiers Across Domains [19.579511315215424]
大規模な言語モデルは、フィードバックを通じて推論能力を高めるために強化学習に依存している。
既存の研究では、より良い検証器の構築に焦点が当てられているが、異なる種類の検証器の性能の体系的な評価は依然として不十分である。
我々は、数学、物理学、化学、生物学に関する4000のエキスパートレベルの質問を構築した。
各質問には基準回答と多様な応答が備わっている。
論文 参考訳(メタデータ) (2025-07-14T03:45:24Z) - A Chain-of-Thought Is as Strong as Its Weakest Link: A Benchmark for Verifiers of Reasoning Chains [33.46649770312231]
ステップバイステップの回答を提供するために言語モデルを実証することは、複雑な推論タスクにおいて顕著なアプローチである。
このような検証方法の徹底的な評価を可能にするための、きめ細かいステップレベルのデータセットは提供されていない。
ReVEAL: Reasoning Verification Evaluationは複雑なチェーン・オブ・ソート推論の自動検証をベンチマークするデータセットである。
論文 参考訳(メタデータ) (2024-02-01T12:46:45Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。