論文の概要: How Do Language Models Understand Tables? A Mechanistic Analysis of Cell Location
- arxiv url: http://arxiv.org/abs/2602.08548v1
- Date: Mon, 09 Feb 2026 11:47:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.201879
- Title: How Do Language Models Understand Tables? A Mechanistic Analysis of Cell Location
- Title(参考訳): 言語モデルはテーブルをどう理解するか : セル位置の力学解析
- Authors: Xuanliang Zhang, Dingzirui Wang, Keyan Xu, Qingfu Zhu, Wanxiang Che,
- Abstract要約: 細胞位置の原子的タスクを分離することにより,テーブル理解の過程を解明する。
モデルは、座標を解くために離散をカウントする順序機構を介して標的セルを特定することを実証する。
我々は,原子配置中に同定された同一のアテンションヘッドを多重化することにより,モデルがマルチセル位置タスクに一般化できることを明らかにする。
- 参考スコア(独自算出の注目度): 53.68149869349268
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While Large Language Models (LLMs) are increasingly deployed for table-related tasks, the internal mechanisms enabling them to process linearized two-dimensional structured tables remain opaque. In this work, we investigate the process of table understanding by dissecting the atomic task of cell location. Through activation patching and complementary interpretability techniques, we delineate the table understanding mechanism into a sequential three-stage pipeline: Semantic Binding, Coordinate Localization, and Information Extraction. We demonstrate that models locate the target cell via an ordinal mechanism that counts discrete delimiters to resolve coordinates. Furthermore, column indices are encoded within a linear subspace that allows for precise steering of model focus through vector arithmetic. Finally, we reveal that models generalize to multi-cell location tasks by multiplexing the identical attention heads identified during atomic location. Our findings provide a comprehensive explanation of table understanding within Transformer architectures.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テーブル関連のタスクにますますデプロイされているが、線形化された2次元構造化テーブルを処理できる内部メカニズムは不透明である。
本研究では,細胞位置の原子的タスクを分離することにより,テーブル理解の過程を解明する。
アクティベーションパッチや補完的解釈可能性技術を通じて、テーブル理解機構をセマンティックバインディング、コーディネートローカライゼーション、インフォメーション抽出という連続的な3段階のパイプラインに分類する。
モデルは、座標を解くために離散デリミタをカウントする順序機構を介して、標的セルを特定することを実証する。
さらに、列のインデックスは線形部分空間内にエンコードされ、ベクトル演算によるモデルフォーカスの精密なステアリングを可能にする。
最後に,原子配置中に同定された同一のアテンションヘッドを多重化することにより,モデルがマルチセル位置タスクに一般化されることを明らかにする。
本研究は,Transformer アーキテクチャにおけるテーブル理解の包括的説明を提供する。
関連論文リスト
- Talking Heads: Understanding Inter-layer Communication in Transformer Language Models [32.2976613483151]
2つのLMで用いられるメカニズムを分析し、1つのタスクでコンテキスト内のアイテムを選択的に抑制する。
モデルが残ストリームの低ランクな部分空間に書き込まれて,後続のレイヤで読み出される特徴を表現することが分かりました。
論文 参考訳(メタデータ) (2024-06-13T18:12:01Z) - SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。
本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。
SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文 参考訳(メタデータ) (2023-03-08T05:15:01Z) - TRUST: An Accurate and End-to-End Table structure Recognizer Using
Splitting-based Transformers [56.56591337457137]
本稿では,TRUSTと呼ばれるテーブル構造認識手法を提案する。
変換器は、大域的な計算、完全メモリ、並列計算のためにテーブル構造認識に適している。
我々はPubTabNetやSynthTableなど,いくつかの人気のあるベンチマークで実験を行い,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2022-08-31T08:33:36Z) - Split, embed and merge: An accurate table structure recognizer [42.579215135672094]
テーブル構造認識器としてSplit, Embed, Merge (SEM) を導入する。
SEM は SciTSR データセットで平均 F-Measure の 96.9% を達成できる。
論文 参考訳(メタデータ) (2021-07-12T06:26:19Z) - TGRNet: A Table Graph Reconstruction Network for Table Structure
Recognition [76.06530816349763]
本稿では,表構造認識のためのエンドツーエンドのトレーニング可能な表グラフ再構成ネットワーク(TGRNet)を提案する。
具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。
論文 参考訳(メタデータ) (2021-06-20T01:57:05Z) - TCN: Table Convolutional Network for Web Table Interpretation [52.32515851633981]
テーブル内情報とテーブル間情報の両方を考慮した新しいテーブル表現学習手法を提案する。
カラムタイプ予測ではf1の4.8%、カラム対関係予測ではf1の4.1%で競合ベースラインを上回ることができる。
論文 参考訳(メタデータ) (2021-02-17T02:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。