論文の概要: Utility-Preserving De-Identification for Math Tutoring: Investigating Numeric Ambiguity in the MathEd-PII Benchmark Dataset
- arxiv url: http://arxiv.org/abs/2602.16571v1
- Date: Wed, 18 Feb 2026 16:12:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.646209
- Title: Utility-Preserving De-Identification for Math Tutoring: Investigating Numeric Ambiguity in the MathEd-PII Benchmark Dataset
- Title(参考訳): MathEd-PIIベンチマークデータセットにおける数値曖昧性の検討
- Authors: Zhuqian Zhou, Kirk Vanacore, Bakhtawar Ahtisham, Jinsook Lee, Doug Pietrzak, Daryl Hedley, Jorge Dias, Chris Shaw, Ruth Schäfer, René F. Kizilcec,
- Abstract要約: MathEd-PIIは数学学習対話におけるPII検出のための最初のベンチマークデータセットである。
虚偽のPII再作用が不均等に算数密度領域に集中していることが示される。
Math-awareのプロンプトにより、ベースライン上でのパフォーマンスが大幅に向上する。
- 参考スコア(独自算出の注目度): 4.671427670348714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale sharing of dialogue-based data is instrumental for advancing the science of teaching and learning, yet rigorous de-identification remains a major barrier. In mathematics tutoring transcripts, numeric expressions frequently resemble structured identifiers (e.g., dates or IDs), leading generic Personally Identifiable Information (PII) detection systems to over-redact core instructional content and reduce dataset utility. This work asks how PII can be detected in math tutoring transcripts while preserving their educational utility. To address this challenge, we investigate the "numeric ambiguity" problem and introduce MathEd-PII, the first benchmark dataset for PII detection in math tutoring dialogues, created through a human-in-the-loop LLM workflow that audits upstream redactions and generates privacy-preserving surrogates. The dataset contains 1,000 tutoring sessions (115,620 messages; 769,628 tokens) with validated PII annotations. Using a density-based segmentation method, we show that false PII redactions are disproportionately concentrated in math-dense regions, confirming numeric ambiguity as a key failure mode. We then compare four detection strategies: a Presidio baseline and LLM-based approaches with basic, math-aware, and segment-aware prompting. Math-aware prompting substantially improves performance over the baseline (F1: 0.821 vs. 0.379) while reducing numeric false positives, demonstrating that de-identification must incorporate domain context to preserve analytic utility. This work provides both a new benchmark and evidence that utility-preserving de-identification for tutoring data requires domain-aware modeling.
- Abstract(参考訳): 対話に基づくデータの大規模な共有は、教育と学習の科学を前進させるのに役立つが、厳密な識別は依然として大きな障壁である。
数学の文字起こし学習では、数値式は構造化識別子(例、日付またはID)によく似ており、PII(Personally Identible Information)検出システムから中核的な命令内容の過度に再認識し、データセットの有用性を減らす。
本研究は,PIIが教育的有用性を保ちながら,文字起こしの学習においてどのように検出できるかを問うものである。
この課題に対処するために、我々は「数値あいまいさ」問題を調査し、数学学習対話におけるPII検出のための最初のベンチマークデータセットであるMathEd-PIIを導入する。
データセットには1000のチューターセッション(115,620のメッセージ、769,628のトークン)と検証済みのPIIアノテーションが含まれている。
密度に基づくセグメンテーション法を用いて、偽のPIIリアクションが不均等に数学密度領域に集中していることを示し、数値的曖昧さを重要な故障モードとして確認する。
次に、PresidioベースラインとLCMベースアプローチの4つの検出戦略を、基本的、数学的、セグメント的プロンプトで比較する。
行列認識のプロンプトはベースライン(F1: 0.821 vs. 0.379)の性能を大幅に向上させ、数値的な偽陽性を減らし、非識別は解析的有用性を維持するためにドメインコンテキストを組み込まなければならないことを示した。
この研究は、新しいベンチマークと、データのチュータリングのためのユーティリティ保存の識別がドメイン認識モデリングを必要とするという証拠を提供する。
関連論文リスト
- ReGUIDE: Data Efficient GUI Grounding via Spatial Reasoning and Search [53.40810298627443]
ReGUIDEは、MLLMが自己生成的推論と空間認識的批判を通じてデータを効率的に学習することを可能にするWebグラウンドのためのフレームワークである。
実験により、ReGUIDEは複数のベンチマークでWebグラウンド性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-05-21T08:36:18Z) - Rubric Is All You Need: Enhancing LLM-based Code Evaluation With Question-Specific Rubrics [1.3707925738322797]
本稿では,専門家評価に対する評価厳密度を定量化するLeniencyと呼ばれる新しい指標を提案する。
包括的分析により,学習環境におけるコードの論理的評価が著しく向上することが確認された。
論文 参考訳(メタデータ) (2025-03-31T11:59:43Z) - LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback [71.95402654982095]
本研究では,自然言語フィードバック型検証器Math-Minosを提案する。
実験の結果,少量の自然言語フィードバックが検証器の性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-06-20T06:42:27Z) - A Fixed-Point Approach to Unified Prompt-Based Counting [51.20608895374113]
本研究の目的は,ボックス,ポイント,テキストなど,さまざまなプロンプト型で示されるオブジェクトの密度マップを生成することができる包括的プロンプトベースのカウントフレームワークを確立することである。
本モデルは,クラスに依存しない顕著なデータセットに優れ,データセット間の適応タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-15T12:05:44Z) - Are LLMs Capable of Data-based Statistical and Causal Reasoning? Benchmarking Advanced Quantitative Reasoning with Data [89.2410799619405]
実世界のデータを用いた統計的および因果推論において,大規模言語モデルの能力を評価するために,データベンチマークを用いた定量的推論を導入する。
このベンチマークは、教科書、オンライン学習教材、学術論文のデータシートを伴う411の質問のデータセットで構成されている。
データとテキストに対するモデルの量的推論能力を比較するために、ベンチマークを290のテキストのみの質問、すなわちQRTextで強化する。
論文 参考訳(メタデータ) (2024-02-27T16:15:03Z) - Seeking Flat Minima with Mean Teacher on Semi- and Weakly-Supervised Domain Generalization for Object Detection [17.831445694502396]
半教師付きドメイン一般化オブジェクト検出(SS-DGOD)と弱い教師付きDGOD(WS-DGOD)の2つの問題設定について検討する。
複数のドメインからのラベル付きデータを必要とする従来のドメインの一般化とは対照的に、SS-DGODとWS-DGODは1つのドメインからのみラベル付きデータを必要とし、トレーニングのために複数のドメインからラベル付きまたは弱いラベル付きデータを必要とする。
オブジェクト検出器は,同じ平均教師学習フレームワークを用いて,2つの設定で効果的に学習可能であることを示す。
論文 参考訳(メタデータ) (2023-10-30T08:46:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。