論文の概要: GLEAN: Grounded Lightweight Evaluation Anchors for Contamination-Aware Tabular Reasoning
- arxiv url: http://arxiv.org/abs/2603.02212v1
- Date: Thu, 22 Jan 2026 13:56:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.070562
- Title: GLEAN: Grounded Lightweight Evaluation Anchors for Contamination-Aware Tabular Reasoning
- Title(参考訳): GLEAN:汚染を考慮した話者推論のための軽量評価アンカー
- Authors: Qizhi Wang,
- Abstract要約: 本稿では, 汚染対応プローブ, 弱スーパービジョンガバナンス, 検索推論診断, 構造化エラー属性を統合する軽量な評価プロトコルを提案する。
我々は16GBのGPU予算でTabFact、WTQをSquall、TableBench、RobuT、SciTabで評価した。
- 参考スコア(独自算出の注目度): 0.5414847001704249
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tabular reasoning benchmarks mix semantic inference, numerical computation, and brittle table formatting, yet evaluations for small models remain vulnerable to contamination, dataset artifacts, and retrieval failures. We propose GLEAN, a lightweight evaluation protocol that integrates contamination-aware probes, weak-supervision governance, retrieval-reasoning diagnostics, and structured error attribution under tight hardware constraints. We evaluate across TabFact, WTQ via Squall, TableBench, RobuT, and SciTab under a 16GB GPU budget. Using Squall gold SQL as an executable anchor (95.2% execution), GLEAN assigns a deterministic error taxonomy (L0-L4 plus L0.5 context miss) and reveals a stable error-mode separation: TAPEX errors skew toward grounding (L3) while TAPAS errors skew toward hallucination/abstention (L2/L0). We validate evidence-row heuristics against SQL-derived rows on simple queries (0.62 precision / 0.71 recall; hybrid recall 0.81) and show that retrieval Recall@K can saturate even when end-to-end EM/F1 remains limited, motivating attribution beyond raw recall. We release a modular framework with audits and sensitivity checks to make small-model tabular evaluation more contamination-aware and diagnostic.
- Abstract(参考訳): タブラル推論ベンチマークはセマンティック推論、数値計算、不安定なテーブルフォーマッティングを混合するが、小さなモデルの評価は汚染、データセットのアーティファクト、検索失敗に弱いままである。
本稿では, 汚染対応プローブ, 弱スーパービジョンガバナンス, 検索推論診断, ハードウェアの厳密な制約下での構造化誤り帰属を統合した軽量な評価プロトコルであるGLEANを提案する。
我々は16GBのGPU予算でTabFact、WTQをSquall、TableBench、RobuT、SciTabで評価した。
Squall Gold SQLを実行可能なアンカーとして(95.2%の実行)、GLEANは決定論的エラー分類(L0-L4とL0.5コンテキストミス)を割り当て、安定したエラーモード分離を明らかにする。
単純なクエリ(0.62精度/0.71リコール、ハイブリッドリコール0.81)でSQL由来の行に対するエビデンス・ローのヒューリスティックスを検証するとともに、エンドツーエンドのEM/F1が制限された場合でもRecall@Kが飽和し、生リコール以上の属性を動機付けることを示す。
監査と感度チェックを備えたモジュラーフレームワークを公開し、小型のタブラ評価をより汚染に気付き、診断できるようにする。
関連論文リスト
- Fundamental Limits of Black-Box Safety Evaluation: Information-Theoretic and Computational Barriers from Latent Context Conditioning [1.9290392443571385]
AIシステムのブラックボックス安全性評価では、テストディストリビューションのモデル動作がデプロイメントのパフォーマンスを確実に予測していると仮定する。
我々は、この仮定を、潜伏した文脈条件のポリシーによって定式化し、挑戦する。
ブラックボックス評価者が配置リスクを確実に見積もることができないという基本的な制限を確立します。
論文 参考訳(メタデータ) (2026-02-19T01:03:11Z) - SpatialBench-UC: Uncertainty-Aware Evaluation of Spatial Prompt Following in Text-to-Image Generation [0.0]
SpaceBench-UCは、ペアの空間関係を再現可能な小さなベンチマークである。
ベンチマークパッケージ、バージョン付きプロンプト、ピン付き構成、サンプルごとのチェッカー出力、レポートテーブルをリリースします。
安定拡散1.5, SD 1.5 BoxDiff, SD 1.4 GLIGENの3つのベースラインについて検討した。
論文 参考訳(メタデータ) (2026-01-19T23:37:10Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - TEN: Table Explicitization, Neurosymbolically [13.178005058859583]
本稿では,テキスト入力からデータを取り出すためのニューロシンボリックアプローチであるTENを提案する。
我々の実験では、TENは複数のデータセットやメトリクスで純粋にニューラルネットワークを著しく上回ります。
21人の被験者による調査では、TENのテーブルの精度がかなり高いことが確認された。
論文 参考訳(メタデータ) (2025-08-12T20:16:41Z) - Data Leakage and Redundancy in the LIT-PCBA Benchmark [0.0]
LIT-PCBAは仮想スクリーニングモデルのベンチマークに広く使われている。
データ漏洩と分子の冗長性は、そのモデルにまたがっている。
LIT-PCBAで公表された結果のほとんどすべてが弱体化されている。
論文 参考訳(メタデータ) (2025-07-29T00:23:45Z) - Long-Form Information Alignment Evaluation Beyond Atomic Facts [60.25969380388974]
明示的な幻覚を導入することなく、真理のステートメントを"モンテージ"することで、偽りの物語を構築するベンチマークであるMontageLieを紹介します。
本稿では,事実の正確性とイベント順序の整合性を共同で検証する新しいフレームワークであるDoveScoreを提案する。
論文 参考訳(メタデータ) (2025-05-21T17:46:38Z) - BUMP: A Benchmark of Unfaithful Minimal Pairs for Meta-Evaluation of
Faithfulness Metrics [70.52570641514146]
不誠実な最小対 (BUMP) のベンチマークを示す。
BUMPは、889人の人間が書いた最小限のサマリーペアのデータセットである。
非ペアベースのデータセットとは異なり、BUMPはメトリクスの一貫性を測定するために使用することができる。
論文 参考訳(メタデータ) (2022-12-20T02:17:30Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。