論文の概要: Beyond Accuracy: Introducing a Symbolic-Mechanistic Approach to Interpretable Evaluation
- arxiv url: http://arxiv.org/abs/2603.23517v1
- Date: Fri, 06 Mar 2026 03:50:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:13.002309
- Title: Beyond Accuracy: Introducing a Symbolic-Mechanistic Approach to Interpretable Evaluation
- Title(参考訳): 正確性を超えて - 解釈可能な評価へのシンボリック・メカニスティックアプローチの導入
- Authors: Reza Habibi, Darian Lee, Magy Seif El-Nasr,
- Abstract要約: タスク関連シンボリックルールと解釈可能性を組み合わせたメカニズム認識評価について論じる。
標準的な評価では、暗記は見えないデータに対して94%のフィールド名精度を達成し、誤った能力を示している。
我々のシンボリック・スティック評価は、このモデルがコアスキーマの一般化ルールに違反していることを明らかにしている。
- 参考スコア(独自算出の注目度): 8.169425244574203
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accuracy-based evaluation cannot reliably distinguish genuine generalization from shortcuts like memorization, leakage, or brittle heuristics, especially in small-data regimes. In this position paper, we argue for mechanism-aware evaluation that combines task-relevant symbolic rules with mechanistic interpretability, yielding algorithmic pass/fail scores that show exactly where models generalize versus exploit patterns. We demonstrate this on NL-to-SQL by training two identical architectures under different conditions: one without schema information (forcing memorization), one with schema (enabling grounding). Standard evaluation shows the memorization model achieves 94% field-name accuracy on unseen data, falsely suggesting competence. Our symbolic-mechanistic evaluation reveals this model violates core schema generalization rules, a failure invisible to accuracy metrics.
- Abstract(参考訳): 正確性に基づく評価は、特に小さなデータ体制において、記憶、漏洩、不安定なヒューリスティックといったショートカットと真の一般化を確実に区別することはできない。
本稿では,タスク関連シンボリックルールと機械的解釈性を組み合わせたメカニズム認識評価について論じる。
NL-to-SQLでは、異なる条件下で2つの同一アーキテクチャをトレーニングすることで、これを実証する。
標準評価では、記憶モデルは、見えないデータに対して94%のフィールド名精度を達成し、誤った能力を示す。
我々のシンボリック・メカニスティックな評価は、このモデルがコアスキーマの一般化ルールに違反していることを示している。
関連論文リスト
- Draw a Portrait of Your Graph Data: An Instance-Level Profiling Framework for Graph-Structured Data [3.912899665210116]
モデル動作のきめ細かい診断を可能にするノードプロファイリングフレームワークであるNodeProを紹介した。
本研究では,ノードプロファイルが未確認ノードに一般化され,基底構造ラベルを使わずに予測信頼性が向上することを示す。
構造化知識グラフにおいて,意味的に一貫性のないノードや破損したノードを識別するNodeProの有用性を実証する。
論文 参考訳(メタデータ) (2025-09-15T16:18:54Z) - Are We Truly Forgetting? A Critical Re-examination of Machine Unlearning Evaluation Protocols [14.961054239793356]
本稿では,下流のタスククラスと意味的類似性を示すクラスを忘れる,厳密なアンラーニング評価手法を提案する。
われわれのベンチマークは、現実的な条件下での未学習アルゴリズム評価のための標準化されたプロトコルとして機能することを願っている。
論文 参考訳(メタデータ) (2025-03-10T07:11:34Z) - Probably Approximately Precision and Recall Learning [60.00180898830079]
機械学習における重要な課題は、一方的なフィードバックの頻度である。
本稿では,確率的近似(PAC)フレームワークを導入し,各入力をラベルの集合にマッピングする仮説を定めている。
我々は、正のデータのみから学習する新しいアルゴリズムを開発し、実現可能な場合において最適なサンプル複雑性を実現する。
論文 参考訳(メタデータ) (2024-11-20T04:21:07Z) - Semi-supervised Learning For Robust Speech Evaluation [30.593420641501968]
音声評価は、自動モデルを用いて学習者の口頭習熟度を測定する。
本稿では,半教師付き事前学習と客観的正規化を活用することで,このような課題に対処することを提案する。
アンカーモデルは、発音の正しさを予測するために擬似ラベルを用いて訓練される。
論文 参考訳(メタデータ) (2024-09-23T02:11:24Z) - Memory Consistency Guided Divide-and-Conquer Learning for Generalized
Category Discovery [56.172872410834664]
一般カテゴリー発見(GCD)は、半教師付き学習のより現実的で挑戦的な設定に対処することを目的としている。
メモリ一貫性を誘導する分枝・分枝学習フレームワーク(MCDL)を提案する。
本手法は,画像認識の目に見えるクラスと見えないクラスの両方において,最先端のモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-24T09:39:45Z) - Weak Supervision Performance Evaluation via Partial Identification [46.73061437177238]
Programmatic Weak Supervision (PWS) は、地上の真理ラベルに直接アクセスすることなく、教師付きモデルトレーニングを可能にする。
本稿では,モデル評価を部分的同定問題としてフレーミングすることで,この問題に対処する新しい手法を提案する。
提案手法は,従来の弱監督評価手法において,ラベル付きデータを必要とせず,重要な指標に信頼性のあるバウンダリを導出する。
論文 参考訳(メタデータ) (2023-12-07T07:15:11Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。
本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z) - Understanding Factuality in Abstractive Summarization with FRANK: A
Benchmark for Factuality Metrics [17.677637487977208]
現代の要約モデルは、高度に流れるが、実際には信頼できない出力を生成する。
一般的なベンチマークがないため、自動生成したサマリーの事実性を測定するためのメトリクスを比較することはできない。
我々は,事実誤りの類型を考案し,それを用いて,最先端の要約システムから生成された要約の人間のアノテーションを収集する。
論文 参考訳(メタデータ) (2021-04-27T17:28:07Z) - Don't Just Blame Over-parametrization for Over-confidence: Theoretical
Analysis of Calibration in Binary Classification [58.03725169462616]
理論上は、過剰パラメトリゼーションは過剰信頼の唯一の理由ではない。
我々は、ロジスティック回帰は本質的に信頼過剰であり、実現可能で、非パラメータな設定であることを示す。
おそらく驚くことに、過剰な信頼が常にそうであるとは限らないことも示します。
論文 参考訳(メタデータ) (2021-02-15T21:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。