論文の概要: HighlightBench: Benchmarking Markup-Driven Table Reasoning in Scientific Documents
- arxiv url: http://arxiv.org/abs/2603.26784v1
- Date: Wed, 25 Mar 2026 06:15:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.60483
- Title: HighlightBench: Benchmarking Markup-Driven Table Reasoning in Scientific Documents
- Title(参考訳): HighlightBench: 科学文書におけるマークアップ駆動テーブル推論のベンチマーク
- Authors: Lexin Wang, Shenghua Liu, Yiwei Wang, Yujun Cai, Yuyao Ge, Jiayu Yao, Jiafeng Guo, Xueqi Cheng,
- Abstract要約: マルチモーダルな大言語モデル (MLLM) は文書理解においてかなりの進歩を遂げているが、明示的な論理ディレクティブとしてそのような方法を扱う能力はいまだ探索されていない。
マークアップ駆動型テーブル理解のための診断ベンチマークであるHighlightBenchを導入し,評価を5つのタスクファミリに分解する。
構成された出力制約の下では、視覚的手がかりがシンボリック推論と一貫して一致しなければならない場合、強いモデルでさえ不安定であることを示す。
- 参考スコア(独自算出の注目度): 88.16322879912458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual markups such as highlights, underlines, and bold text are common in table-centric documents. Although multimodal large language models (MLLMs) have made substantial progress in document understanding, their ability to treat such cues as explicit logical directives remains under-explored. More importantly, existing evaluations cannot distinguish whether a model fails to see the markup or fails to reason with it. This creates a key blind spot in assessing markup-conditioned behavior over tables. To address this gap, we introduce HighlightBench, a diagnostic benchmark for markup-driven table understanding that decomposes evaluation into five task families: Markup Grounding, Constrained Retrieval, Local Relations, Aggregation \& Comparison, and Consistency \& Missingness. We further provide a reference pipeline that makes intermediate decisions explicit, enabling reproducible baselines and finer-grained attribution of errors along the perception-to-execution chain. Experiments show that even strong models remain unstable when visual cues must be consistently aligned with symbolic reasoning under structured output constraints.
- Abstract(参考訳): ハイライト、アンダーライン、大胆なテキストといった視覚的なマークアップは、テーブル中心のドキュメントで一般的である。
マルチモーダルな大規模言語モデル (MLLM) は文書理解においてかなりの進歩を遂げているが、明示的な論理ディレクティブとしてそのような方法を扱う能力はいまだ探索されていない。
さらに重要なことは、既存の評価では、モデルがマークアップを見るのに失敗したり、それで推論に失敗したりするかどうかを区別できないことです。
これにより、マークアップ条件付き振る舞いをテーブル上で評価する上で、重要な盲点が生まれる。
このギャップに対処するために、マークアップ駆動テーブル理解のための診断ベンチマークであるHighlightBenchを導入し、マークアップグラウンド、制約付き検索、局所関係、集約と比較、一貫性と欠落の5つのタスクファミリーに評価を分解する。
さらに、中間決定を明確化し、再現可能なベースラインと、認識から実行までの連鎖に沿ったエラーのよりきめ細かい帰属を可能にするリファレンスパイプラインを提供する。
実験により、構造化された出力制約の下では、視覚的手がかりがシンボリック推論と一貫して一致しなければならない場合、強いモデルでさえ不安定であることが示された。
関連論文リスト
- IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation [85.56193980646981]
命令追従のための総合的メタ評価ベンチマークであるIF-RewardBenchを提案する。
各命令に対して、複数の応答間の全てのペアの選好を含む選好グラフを構築する。
IF-RewardBenchの実験は、現在の審査モデルに重大な欠陥を呈している。
論文 参考訳(メタデータ) (2026-03-05T02:21:17Z) - FMBench: Adaptive Large Language Model Output Formatting [49.52930069696333]
適応型マークダウン出力フォーマットのベンチマークであるFMBenchを提案する。
2つのモデルファミリーの実験は、SFTが一貫してセマンティックアライメントを改善していることを示している。
結果はまた、意味的目的と構造的目的の間に固有のトレードオフを明らかにします。
論文 参考訳(メタデータ) (2026-02-06T04:42:06Z) - TabReX : Tabular Referenceless eXplainable Evaluation [15.411207072791806]
TabReXは、大規模な言語モデルによって生成されたテーブルを評価するための、参照レスでプロパティ駆動のフレームワークである。
構造的および事実的忠実度を定量化する解釈可能なルーリック認識スコアを計算する。
堅牢性を評価するため、6つのドメインと12のプランナー駆動摂動型にまたがる大規模なベンチマークであるTabReX-Benchを紹介する。
論文 参考訳(メタデータ) (2025-12-17T19:20:20Z) - DAG-Math: Graph-Guided Mathematical Reasoning in LLMs [54.231935013127206]
大型言語モデル (LLM) は, CoT (Chain-of-Thought) による数学的問題に対して高い性能を示す
我々は、有向非巡回グラフ(DAG)上の一定の規則に基づくプロセスとしてCoTをモデル化することを提案する。
ここでは,モデルのCoT軌道がDAG構造にどの程度よく依存するかを定量化する計量である論理的近接性を導入する。
論文 参考訳(メタデータ) (2025-10-19T21:05:17Z) - GRAFT: GRaPH and Table Reasoning for Textual Alignment -- A Benchmark for Structured Instruction Following and Visual Reasoning [0.0]
GRAFTは、命令追従型視覚推論と視覚テキストアライメントのモデルを評価するための構造化マルチモーダルベンチマークである。
生成されたチャートと、Pythonライブラリで作成され、データセマンティクスの制御と明確性を保証する。
論文 参考訳(メタデータ) (2025-08-21T16:13:49Z) - TabXEval: Why this is a Bad Table? An eXhaustive Rubric for Table Evaluation [10.212570261759204]
本稿では,マルチレベル構造記述子と微粒なコンテキスト信号を統合するルーブリックに基づく評価フレームワークを提案する。
本稿では,eXhaustiveとeXplainableの2相評価フレームワークであるTabXEvalを紹介する。
我々はTabXBench上でTabXEvalを評価する。TabXBenchは現実的なテーブル摂動と人間のアノテーションを特徴とする多種多様なマルチベンチマークである。
論文 参考訳(メタデータ) (2025-05-28T09:50:29Z) - SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。
本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。
SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文 参考訳(メタデータ) (2023-03-08T05:15:01Z) - Does Recommend-Revise Produce Reliable Annotations? An Analysis on
Missing Instances in DocRED [60.39125850987604]
テキスト修正方式は, 偽陰性サンプルと, 人気エンティティや関係性に対する明らかな偏見をもたらすことを示す。
より信頼性の高いドキュメントREモデルのテストセットとして機能するように、relabeledデータセットがリリースされている。
論文 参考訳(メタデータ) (2022-04-17T11:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。