論文の概要: TabReX : Tabular Referenceless eXplainable Evaluation
- arxiv url: http://arxiv.org/abs/2512.15907v1
- Date: Wed, 17 Dec 2025 19:20:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.787989
- Title: TabReX : Tabular Referenceless eXplainable Evaluation
- Title(参考訳): TabReX : Tabular Referenceless eXplainable Evaluation
- Authors: Tejas Anvekar, Juhna Park, Aparna Garimella, Vivek Gupta,
- Abstract要約: TabReXは、大規模な言語モデルによって生成されたテーブルを評価するための、参照レスでプロパティ駆動のフレームワークである。
構造的および事実的忠実度を定量化する解釈可能なルーリック認識スコアを計算する。
堅牢性を評価するため、6つのドメインと12のプランナー駆動摂動型にまたがる大規模なベンチマークであるTabReX-Benchを紹介する。
- 参考スコア(独自算出の注目度): 15.411207072791806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating the quality of tables generated by large language models (LLMs) remains an open challenge: existing metrics either flatten tables into text, ignoring structure, or rely on fixed references that limit generalization. We present TabReX, a reference-less, property-driven framework for evaluating tabular generation via graph-based reasoning. TabReX converts both source text and generated tables into canonical knowledge graphs, aligns them through an LLM-guided matching process, and computes interpretable, rubric-aware scores that quantify structural and factual fidelity. The resulting metric provides controllable trade-offs between sensitivity and specificity, yielding human-aligned judgments and cell-level error traces. To systematically asses metric robustness, we introduce TabReX-Bench, a large-scale benchmark spanning six domains and twelve planner-driven perturbation types across three difficulty tiers. Empirical results show that TabReX achieves the highest correlation with expert rankings, remains stable under harder perturbations, and enables fine-grained model-vs-prompt analysis establishing a new paradigm for trustworthy, explainable evaluation of structured generation systems.
- Abstract(参考訳): 大きな言語モデル(LLM)によって生成されたテーブルの品質を評価することは、まだオープンな課題であり、既存のメトリクスは、テーブルをテキストに平らにしたり、構造を無視したり、一般化を制限する固定参照に依存する。
グラフベースの推論による表生成を評価するための,参照レスでプロパティ駆動のフレームワークであるTabReXを提案する。
TabReXは、ソーステキストと生成されたテーブルの両方を標準知識グラフに変換し、LLM誘導マッチングプロセスを通じてそれらを整列させ、構造的および事実的忠実さを定量化する解釈可能なルリック認識スコアを計算する。
結果の指標は感度と特異性の間の制御可能なトレードオフを提供し、人間の一致した判断と細胞レベルのエラートレースをもたらす。
測定精度を体系的に評価するため,TabReX-Benchは6つの領域と12のプランナー駆動型摂動型にまたがる大規模ベンチマークである。
実験結果から,TabReXは専門家のランクと高い相関を達成し,より厳しい摂動下で安定であり,モデル-vs-プロンプト解析が可能であり,構造化された生成システムの信頼性・説明可能な新しいパラダイムを確立することができることがわかった。
関連論文リスト
- SCORE: A Semantic Evaluation Framework for Generative Document Parsing [2.5101597298392098]
マルチモーダル生成文書解析システムは意味論的に正しいが構造的に異なる出力を生成する。
従来のメトリクス-CER, WER, IoU, TEDS-misclassized such diversity as error, penalizing valid interpretations and obscuring system behavior。
SCORE, (i) 調整した編集距離を頑健な内容の忠実度と統合する解釈非依存のフレームワーク, (ii) トークンレベルの診断で幻覚と排便を区別する, (iii) 空間的寛容とセマンティックアライメントによるテーブル評価, (iv) 階層対応の整合性チェックを紹介する。
論文 参考訳(メタデータ) (2025-09-16T16:06:19Z) - TabStruct: Measuring Structural Fidelity of Tabular Data [28.606994119562163]
我々は,地中構造が存在しない場合でも,構造的忠実度を評価するための新しい評価指標である$textbfglobal utility$を導入する。
また、すべてのデータセット、評価パイプライン、生の結果を含むTabStructベンチマークスイートも提示します。
論文 参考訳(メタデータ) (2025-09-15T14:08:20Z) - LimiX: Unleashing Structured-Data Modeling Capability for Generalist Intelligence [61.46575527504109]
LimiX-16MとLimiX-2Mは、構造化されたデータを変数と欠落に対する共同分布として扱う。
サンプルサイズ,特徴次元,クラス数,カテゴリ間特徴比,欠落度,サンプル-特徴比の広い11種類の大規模構造化データベンチマークを対象としたLimiXモデルの評価を行った。
論文 参考訳(メタデータ) (2025-09-03T17:39:08Z) - Evaluating Structured Decoding for Text-to-Table Generation: Evidence from Three Datasets [0.2578242050187029]
大規模言語モデル(LLM)を用いたテキスト・ツー・テーブル生成のための構造化復号の包括的評価を行う。
構造化デコーディングと標準ワンショットプロンプトの3つのベンチマーク(E2E、Rotowire、Livesum)を比較した。
その結果,構造化復号化は生成テーブルの妥当性とアライメントを著しく向上させるが,密集したテキスト情報を含むコンテキストでは性能が低下する可能性が示唆された。
論文 参考訳(メタデータ) (2025-08-21T18:11:16Z) - LLM-Symbolic Integration for Robust Temporal Tabular Reasoning [69.27153114778748]
本研究では,システムおよび制御された評価のための合成データセットであるTempTabQA-Cを紹介する。
この構造化アプローチにより、LLM(Large Language Models)はsqlクエリの生成と実行を可能にし、一般化とバイアス軽減の強化を行う。
論文 参考訳(メタデータ) (2025-06-06T05:14:04Z) - Multimodal Tabular Reasoning with Privileged Structured Information [67.40011423365712]
ブリッジインfOrmation (sc Turbo) を用いたタブウラー推論(TabUlar Reasoning)について紹介する。
sc TurboはDeepSeek-R1をベースにした構造対応の推論トレースジェネレータの恩恵を受ける。
sc Turboは、複数のデータセットで最先端のパフォーマンス(+7.2%対以前のSOTA)を達成する。
論文 参考訳(メタデータ) (2025-06-04T15:46:30Z) - TabXEval: Why this is a Bad Table? An eXhaustive Rubric for Table Evaluation [10.212570261759204]
本稿では,マルチレベル構造記述子と微粒なコンテキスト信号を統合するルーブリックに基づく評価フレームワークを提案する。
本稿では,eXhaustiveとeXplainableの2相評価フレームワークであるTabXEvalを紹介する。
我々はTabXBench上でTabXEvalを評価する。TabXBenchは現実的なテーブル摂動と人間のアノテーションを特徴とする多種多様なマルチベンチマークである。
論文 参考訳(メタデータ) (2025-05-28T09:50:29Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - TRUST: An Accurate and End-to-End Table structure Recognizer Using
Splitting-based Transformers [56.56591337457137]
本稿では,TRUSTと呼ばれるテーブル構造認識手法を提案する。
変換器は、大域的な計算、完全メモリ、並列計算のためにテーブル構造認識に適している。
我々はPubTabNetやSynthTableなど,いくつかの人気のあるベンチマークで実験を行い,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2022-08-31T08:33:36Z) - Towards Faithful Neural Table-to-Text Generation with Content-Matching
Constraints [63.84063384518667]
そこで本研究では,トランスフォーマーをベースとした新たな生成フレームワークを提案する。
忠実度を強制する手法の中核となる技術は、テーブル-テキストの最適トランスポート・マッチング・ロスである。
忠実度を評価するため,テーブル・ツー・テキスト生成問題に特化した新しい自動尺度を提案する。
論文 参考訳(メタデータ) (2020-05-03T02:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。