論文の概要: Same Content, Different Representations: A Controlled Study for Table QA
- arxiv url: http://arxiv.org/abs/2509.22983v1
- Date: Fri, 26 Sep 2025 22:33:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.964602
- Title: Same Content, Different Representations: A Controlled Study for Table QA
- Title(参考訳): 同じ内容、異なる表現:テーブルQAのための制御された研究
- Authors: Yue Zhang, Seiji Maekawa, Nikita Bhutani,
- Abstract要約: リアルタイム設定におけるテーブル質問回答(Table QA)は、構造化されたデータベースとテキストフィールドを含む半構造化されたテーブルの両方で操作する必要がある。
既存のベンチマークは固定データ形式に結びついており、表現自体がモデルパフォーマンスに与える影響を体系的に検討していない。
コンテント定数を一定に保ちながら構造を変化させることによりテーブル表現の役割を分離する最初の制御された研究について述べる。
- 参考スコア(独自算出の注目度): 15.896655757672441
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Table Question Answering (Table QA) in real-world settings must operate over both structured databases and semi-structured tables containing textual fields. However, existing benchmarks are tied to fixed data formats and have not systematically examined how representation itself affects model performance. We present the first controlled study that isolates the role of table representation by holding content constant while varying structure. Using a verbalization pipeline, we generate paired structured and semi-structured tables, enabling direct comparisons across modeling paradigms. To support detailed analysis, we introduce a diagnostic benchmark with splits along table size, join requirements, query complexity, and schema quality. Our experiments reveal consistent trade-offs: SQL-based methods achieve high accuracy on structured inputs but degrade on semi-structured data, LLMs exhibit flexibility but reduced precision, and hybrid approaches strike a balance, particularly under noisy schemas. These effects intensify with larger tables and more complex queries. Ultimately, no single method excels across all conditions, and we highlight the central role of representation in shaping Table QA performance. Our findings provide actionable insights for model selection and design, paving the way for more robust hybrid approaches suited for diverse real-world data formats.
- Abstract(参考訳): リアルタイム設定におけるテーブル質問回答(Table QA)は、構造化されたデータベースとテキストフィールドを含む半構造化されたテーブルの両方で操作する必要がある。
しかし、既存のベンチマークは固定データ形式に結びついており、表現自体がモデルの性能に与える影響を体系的に調べていない。
コンテント定数を一定に保ちながら構造を変化させることによりテーブル表現の役割を分離する最初の制御された研究について述べる。
動詞化パイプラインを用いて、ペア化された構造化テーブルと半構造化テーブルを生成し、モデリングパラダイム間の直接比較を可能にする。
詳細な分析をサポートするために、テーブルサイズ、結合要件、クエリの複雑さ、スキーマ品質に沿って分割された診断ベンチマークを導入する。
SQLベースの手法は、構造化された入力に対して高い精度を達成するが、半構造化データでは劣化し、LLMは柔軟性を示すが精度は低下し、ハイブリッドアプローチは特にノイズの多いスキーマの下でバランスを取る。
これらの効果は、より大きなテーブルとより複雑なクエリによって強化される。
最終的に、すべての条件にまたがる単一のメソッドが存在しないので、表QAのパフォーマンスを形作る上で、表現の中心的な役割を強調します。
我々の研究は、モデル選択と設計のための実用的な洞察を提供し、多様な実世界のデータフォーマットに適した、より堅牢なハイブリッドアプローチの道を開く。
関連論文リスト
- TableDART: Dynamic Adaptive Multi-Modal Routing for Table Understanding [52.59372043981724]
TableDARTはトレーニング効率のよいフレームワークで、事前トレーニングされた単一モダリティモデルを再利用することでマルチモーダルビューを統合する。
さらに,テキストモデルと画像モデルからの出力を解析し,モーダル間知識統合のための新しいエージェントを提案する。
論文 参考訳(メタデータ) (2025-09-18T07:00:13Z) - Plugging Schema Graph into Multi-Table QA: A Human-Guided Framework for Reducing LLM Reliance [8.83042313837811]
本稿では,人為的な関係知識を活用して,スキーマリンクとジョインパスを明示的にエンコードするグラフベースのフレームワークを提案する。
自然言語クエリが与えられた場合,提案手法は解析可能な推論チェーンを構築するためにグラフを検索し,プルーニングとサブパスマージ戦略によって支援する。
標準ベンチマークと現実的な大規模データセットの両方の実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2025-06-04T20:21:52Z) - Texts or Images? A Fine-grained Analysis on the Effectiveness of Input Representations and Models for Table Question Answering [16.790216473975146]
2つの視点から表表現とモデルの組み合わせの有効性に関する最初の制御された研究を行う。
テーブル表現とモデルの組み合わせはセットアップによって異なります。
本稿では,テーブル表現を動的に選択するFRESを提案する。
論文 参考訳(メタデータ) (2025-05-20T09:36:17Z) - Better Think with Tables: Tabular Structures Enhance LLM Comprehension for Data-Analytics Requests [33.471112091886894]
大規模言語モデル(LLM)は、情報検索やデータ操作に関連するデータ分析要求に悩まされることが多い。
我々は、データ分析要求のために表構造をLCMに注入するThinking with Tablesを紹介した。
テーブルを提供すると平均的なパフォーマンスが40.29パーセント向上し、操作性やトークン効率が向上することを示す。
論文 参考訳(メタデータ) (2024-12-22T23:31:03Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。
本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。
SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文 参考訳(メタデータ) (2023-03-08T05:15:01Z) - Optimization Techniques for Unsupervised Complex Table Reasoning via Self-Training Framework [5.351873055148804]
自己学習フレームワークは複雑な論理を持つ多様な合成データを生成する。
我々は「テーブル・テキスト・マニピュレータ(Table-Text Manipulator)」を用いて、共同テーブル・テキスト推論シナリオの処理を最適化する。
UCTRSTは、異なるタスクやドメインにおける教師付きモデルパフォーマンスの90%以上を達成する。
論文 参考訳(メタデータ) (2022-12-20T09:15:03Z) - Table Retrieval May Not Necessitate Table-specific Model Design [83.27735758203089]
テーブル検索のタスクに焦点をあてて、"テーブル固有のモデル設計はテーブル検索に必要か?
自然質問データセット (NQ-table) の表に基づく分析の結果, 70%以上の症例では構造が無視できる役割を担っていることがわかった。
次に、テーブル構造、すなわち補助列/カラム埋め込み、ハードアテンションマスク、ソフトリレーションに基づくアテンションバイアスを明示的にエンコードする3つのモジュールを実験する。
いずれも大きな改善は得られず、テーブル固有のモデル設計がテーブル検索に不要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:35:23Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。