Fugu-MT 論文翻訳(概要): Orthogonal Hierarchical Decomposition for Structure-Aware Table Understanding with Large Language Models

論文の概要: Orthogonal Hierarchical Decomposition for Structure-Aware Table Understanding with Large Language Models

arxiv url: http://arxiv.org/abs/2602.01969v1
Date: Mon, 02 Feb 2026 11:22:43 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-03 19:28:34.102978
Title: Orthogonal Hierarchical Decomposition for Structure-Aware Table Understanding with Large Language Models
Title（参考訳）: 大規模言語モデルを用いた構造認識表理解のための直交階層分解
Authors: Bin Cao, Huixian Lu, Chenwen Ma, Ting Wang, Ruizhe Li, Jing Fan,
Abstract要約: LLMの複雑なテーブルの構造保存型入力表現を構成する直交階層分解(OHD)フレームワークを提案する。この表現に基づいて、各セルのセマンティックな系統を対称的に再構築する2経路アソシエーションプロトコルを設計する。 AITQA と HiTab という2つの複雑なテーブル質問応答ベンチマーク上で OHD フレームワークを評価する。
参考スコア（独自算出の注目度）: 13.58784346599112
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Complex tables with multi-level headers, merged cells and heterogeneous layouts pose persistent challenges for LLMs in both understanding and reasoning. Existing approaches typically rely on table linearization or normalized grid modeling. However, these representations struggle to explicitly capture hierarchical structures and cross-dimensional dependencies, which can lead to misalignment between structural semantics and textual representations for non-standard tables. To address this issue, we propose an Orthogonal Hierarchical Decomposition (OHD) framework that constructs structure-preserving input representations of complex tables for LLMs. OHD introduces an Orthogonal Tree Induction (OTI) method based on spatial--semantic co-constraints, which decomposes irregular tables into a column tree and a row tree to capture vertical and horizontal hierarchical dependencies, respectively. Building on this representation, we design a dual-pathway association protocol to symmetrically reconstruct semantic lineage of each cell, and incorporate an LLM as a semantic arbitrator to align multi-level semantic information. We evaluate OHD framework on two complex table question answering benchmarks, AITQA and HiTab. Experimental results show that OHD consistently outperforms existing representation paradigms across multiple evaluation metrics.
Abstract（参考訳）: 多レベルヘッダー、マージセル、ヘテロジニアスレイアウトを備えた複雑なテーブルは、理解と推論の両方においてLLMに永続的な課題をもたらす。既存のアプローチは典型的にはテーブル線形化や正規化グリッドモデリングに依存している。しかし、これらの表現は階層構造や多次元依存を明示的に捉えることに苦慮しており、構造意味論と非標準表のテキスト表現との相違につながる可能性がある。この問題に対処するために,LLMの複雑なテーブルの構造保存型入力表現を構成する直交階層分解(OHD)フレームワークを提案する。 OHDでは,不規則なテーブルを列木と行木に分解し,垂直および水平の階層的依存関係をキャプチャする,空間-意味的コ制約に基づく直交木誘導(OTI)手法を導入している。この表現に基づいて、各セルのセマンティックな系統を対称的に再構築するデュアルパスアソシエーションプロトコルを設計し、LLMを意味的調停器として組み込んで多レベルセマンティック情報を整合させる。 AITQA と HiTab という2つの複雑なテーブル質問応答ベンチマーク上で OHD フレームワークを評価する。実験の結果,OHDは複数の評価指標で既存の表現パラダイムを一貫して上回ることがわかった。

関連論文リスト

MoDora: Tree-Based Semi-Structured Document Analysis System [62.01015188258797]
半構造化文書は、様々な不規則なレイアウトで配置された様々なインターリーブされたデータ要素を統合する。 MoDora は半構造化文書解析のための LLM を利用したシステムである。実験では、MoDoraは5.97%-61.07%の精度でベースラインを上回っている。
論文参考訳（メタデータ） (2026-02-26T14:48:49Z)
How Do Language Models Understand Tables? A Mechanistic Analysis of Cell Location [53.68149869349268]
細胞位置の原子的タスクを分離することにより,テーブル理解の過程を解明する。モデルは、座標を解くために離散をカウントする順序機構を介して標的セルを特定することを実証する。我々は,原子配置中に同定された同一のアテンションヘッドを多重化することにより,モデルがマルチセル位置タスクに一般化できることを明らかにする。
論文参考訳（メタデータ） (2026-02-09T11:47:34Z)
Same Content, Different Representations: A Controlled Study for Table QA [15.896655757672441]
リアルタイム設定におけるテーブル質問回答(Table QA)は、構造化されたデータベースとテキストフィールドを含む半構造化されたテーブルの両方で操作する必要がある。既存のベンチマークは固定データ形式に結びついており、表現自体がモデルパフォーマンスに与える影響を体系的に検討していない。コンテント定数を一定に保ちながら構造を変化させることによりテーブル表現の役割を分離する最初の制御された研究について述べる。
論文参考訳（メタデータ） (2025-09-26T22:33:19Z)
TableDART: Dynamic Adaptive Multi-Modal Routing for Table Understanding [52.59372043981724]
TableDARTはトレーニング効率のよいフレームワークで、事前トレーニングされた単一モダリティモデルを再利用することでマルチモーダルビューを統合する。さらに,テキストモデルと画像モデルからの出力を解析し,モーダル間知識統合のための新しいエージェントを提案する。
論文参考訳（メタデータ） (2025-09-18T07:00:13Z)
Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。 AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文参考訳（メタデータ） (2025-07-22T06:37:51Z)
Plugging Schema Graph into Multi-Table QA: A Human-Guided Framework for Reducing LLM Reliance [8.83042313837811]
本稿では,人為的な関係知識を活用して,スキーマリンクとジョインパスを明示的にエンコードするグラフベースのフレームワークを提案する。自然言語クエリが与えられた場合,提案手法は解析可能な推論チェーンを構築するためにグラフを検索し,プルーニングとサブパスマージ戦略によって支援する。標準ベンチマークと現実的な大規模データセットの両方の実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2025-06-04T20:21:52Z)
Tree-of-Table: Unleashing the Power of LLMs for Enhanced Large-Scale Table Understanding [42.841205217768106]
トレー・オブ・タブル(Tree-of-Table)は、LLMが大規模で複雑なテーブル上での推論能力を高めるために設計された新しいアプローチである。 Tree-of-Tableは優れた性能を持つ新しいベンチマークをセットし、大規模テーブル推論における顕著な効率性と一般化能力を示す。
論文参考訳（メタデータ） (2024-11-13T11:02:04Z)
SEMv3: A Fast and Robust Approach to Table Separation Line Detection [48.75713662571455]
テーブル構造認識(TSR)は、テーブル固有の構造を入力画像から解析することを目的としている。スプリット・アンド・マージ(Split-and-merge)パラダイムは、テーブル分離線検出が不可欠であるテーブル構造を解析するための重要なアプローチである。本稿では, SEMv3 (Split, Embed, Merge) を提案する。
論文参考訳（メタデータ） (2024-05-20T08:13:46Z)
SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。 SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文参考訳（メタデータ） (2023-03-08T05:15:01Z)
TRUST: An Accurate and End-to-End Table structure Recognizer Using Splitting-based Transformers [56.56591337457137]
本稿では,TRUSTと呼ばれるテーブル構造認識手法を提案する。変換器は、大域的な計算、完全メモリ、並列計算のためにテーブル構造認識に適している。我々はPubTabNetやSynthTableなど,いくつかの人気のあるベンチマークで実験を行い,新しい最先端の結果を得た。
論文参考訳（メタデータ） (2022-08-31T08:33:36Z)
HiTab: A Hierarchical Table Dataset for Question Answering and Natural Language Generation [35.73434495391091]
階層テーブルは、計算と意味論の暗黙の関係と同様に、階層的な索引付けによって既存の手法に挑戦する。この研究は、階層テーブル上で質問応答(QA)と自然言語生成(NLG)を研究する研究コミュニティのための、自由でオープンなデータセットであるHiTabを提示する。
論文参考訳（メタデータ） (2021-08-15T10:14:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。