論文の概要: Table-BiEval: A Self-Supervised, Dual-Track Framework for Decoupling Structure and Content in LLM Evaluation
- arxiv url: http://arxiv.org/abs/2601.19923v1
- Date: Fri, 09 Jan 2026 07:38:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 02:21:38.542052
- Title: Table-BiEval: A Self-Supervised, Dual-Track Framework for Decoupling Structure and Content in LLM Evaluation
- Title(参考訳): Table-BiEval: LLM評価における構造と内容の分離のための自己監督型デュアルトラックフレームワーク
- Authors: Boxiang Zhao, Qince Li, Zhonghao Wang, Zelin Cao, Yi Wang, Peng Cheng, Bo Lin,
- Abstract要約: Table-BiEvalは、人間の自由で自己管理的な評価フレームワークに基づく、新しいアプローチである。
コンテンツセマンティック精度と正規化ツリー編集距離を計算し、構造をコンテンツから切り離す。
結果は大きな変動を示し、中規模のモデルが驚くほど大きなモデルよりも構造効率が優れていることを浮き彫りにしている。
- 参考スコア(独自算出の注目度): 11.450834626205676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) evolve into autonomous agents, the capability to faithfully translate natural language into rigorous structured formats-essential for tool invocation-and to convert complex tabular information into machine-readable specifications has become paramount. However, current evaluations lack effective methodologies to measure this structural fidelity without costly human intervention, as traditional text metrics fail to detect semantic drift in code-like outputs. This paper proposes Table-BiEval, a novel approach based on a human-free, self-supervised evaluation framework, to assess LLMs performance quantitatively. By leveraging deterministic Intermediate Representations, our framework calculates Content Semantic Accuracy and Normalized Tree Edit Distance to decouple structure from content. Also, it empirically evaluates 15 state-of-the-art LLMs across dual topological dimensions-hierarchical structures and flat tables. The results reveal substantial variability, highlighting that mid-sized models can surprisingly outperform larger counterparts in structural efficiency and confirming that deep recursive nesting remains a universal bottleneck for current architectures.
- Abstract(参考訳): 大規模言語モデル(LLM)が自律エージェントへと進化するにつれて、ツールの実行に必要な厳密な構造化形式に自然言語を忠実に翻訳し、複雑な表情報を機械可読仕様に変換する能力が最重要になっている。
しかし、従来のテキストメトリクスはコードのような出力のセマンティックドリフトを検出できないため、人間の介入を伴わずにこの構造的忠実度を測定する効果的な手法が欠如している。
本稿では,LLMの性能を定量的に評価するための,人間自由で自己監督型評価フレームワークであるTable-BiEvalを提案する。
決定論的中間表現を活用することで、本フレームワークはコンテンツ意味的精度と正規化木編集距離を計算し、構造をコンテンツから切り離す。
また、二重トポロジカル次元の階層構造と平らなテーブルにまたがる15の最先端LCMを実証的に評価する。
この結果から,中規模のモデルでは構造効率が驚くほど向上し,深い再帰ネストが現在のアーキテクチャの普遍的なボトルネックであることが確認された。
関連論文リスト
- FORESTLLM: Large Language Models Make Random Forest Great on Few-shot Tabular Learning [20.27406245916013]
本稿では,大規模言語モデル(LLM)の意味的推論能力を用いて,決定林の構造的帰納バイアスを統一する枠組みを提案する。
まずLLMがラベル付きデータとラベルなしデータの両方の一貫性に基づいて候補分割を評価するセマンティックスプリッティング基準を導入し、より堅牢で一般化可能な木構造を数発の監視下で実現する。
第2に,LLMが決定経路とその支持例を簡潔で決定論的な予測に蒸留し,雑音の多い経験的推定を意味的インフォームドアウトプットに置き換える,葉ノード安定化のためのワンタイムインコンテキスト推論機構を提案する。
論文 参考訳(メタデータ) (2026-01-16T14:08:51Z) - Structure-Aware Decoding Mechanisms for Complex Entity Extraction with Large-Scale Language Models [8.15127799301814]
本稿では,大規模言語モデルに基づく構造認識復号法を提案する。
ネストおよび重複するエンティティ抽出タスクにおいて、意味的整合性と構造的整合性の両方を維持することの難しさに対処する。
ACE 2005データセットで実施された実験では、精度、精度、リコール、F1-Scoreが大幅に改善された。
論文 参考訳(メタデータ) (2025-12-16T00:40:06Z) - DynaQuery: A Self-Adapting Framework for Querying Structured and Multimodal Data [0.0]
構造化されていないデータを問合せするための統合された自己適応フレームワークであるDynaQueryを紹介します。
DynaQueryの中心にIntrospection and Linking Engine (SILE)がある。これは、スキーマリンクをファーストクラスのクエリ計画フェーズに高める新しいシステムプリミティブである。
我々の研究は、堅牢で適応性があり、予測可能である自然言語データベースインタフェースを開発するための検証済みのアーキテクチャ基盤を提供する。
論文 参考訳(メタデータ) (2025-10-20T19:02:35Z) - Structure-R1: Dynamically Leveraging Structural Knowledge in LLM Reasoning through Reinforcement Learning [29.722512436773638]
本稿では,検索したコンテンツを推論に最適化した構造化表現に変換するフレームワークであるtextscStructure-R1を提案する。
textscStructure-R1は、7Bスケールのバックボーンモデルとの競合性能を一貫して達成していることを示す。
我々の理論的分析は,情報密度と文脈的明瞭度を向上させることによって,構造化表現が推論をいかに促進するかを示す。
論文 参考訳(メタデータ) (2025-10-16T23:19:28Z) - Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - Effects of structure on reasoning in instance-level Self-Discover [0.0]
本稿では、Self-Discoverフレームワークのインスタンスレベルの適応であるiSelf-Discoverを紹介し、それを用いて動的に生成された構造化推論と非構造化推論との比較を行う。
最先端のオープンソースモデルを用いた多種多様なベンチマークによる実証的評価は、非構造化推論に対する一貫した優位性を支持している。
論文 参考訳(メタデータ) (2025-07-04T07:28:42Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。
タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。
我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文 参考訳(メタデータ) (2024-02-06T22:15:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。