論文の概要: Theme-Explanation Structure for Table Summarization using Large Language Models: A Case Study on Korean Tabular Data
- arxiv url: http://arxiv.org/abs/2501.10487v2
- Date: Wed, 26 Feb 2025 07:10:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 17:39:51.0956
- Title: Theme-Explanation Structure for Table Summarization using Large Language Models: A Case Study on Korean Tabular Data
- Title(参考訳): 大規模言語モデルを用いた表要約のためのテーマ説明構造:韓国語の語彙データを用いた事例研究
- Authors: TaeYoon Kwack, Jisoo Kim, Ki Yong Jung, DongGeon Lee, Heesun Park,
- Abstract要約: 本稿では,テーマ記述構造に基づくテーブル要約パイプライン(Tabular-TX)を提案する。
テーマ部が副詞句として現れ、説明部が予測節として続く構造化形式に従って要約文を生成する。
実験の結果,Tabular-TXは従来の微調整法よりも有意に優れていた。
- 参考スコア(独自算出の注目度): 1.0621665950143144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes the Theme-Explanation Structure-based Table Summarization (Tabular-TX) pipeline designed to process tabular data efficiently. Tabular-TX preprocesses tabular data by focusing on highlighted cells. It then generates summary sentences following a structured format, where the Theme Part appears as an adverbial phrase, and the Explanation Part follows as a predictive clause. This approach enables tailored analysis by considering the structural characteristics of tables and their comparability. Unlike conventional fine-tuning approaches that require extensive labeled data and computational resources, our method leverages In-Context Learning to dynamically adapt to different table structures without additional training, ensuring efficient and scalable table interpretation. Experimental results demonstrate that Tabular-TX significantly outperforms conventional fine-tuning-based methods, particularly in low-resource scenarios, by leveraging table structures and metadata more effectively through structured prompts. The results confirm that Tabular-TX enables more effective processing of complex tabular data. Furthermore, it serves as a viable alternative for table-based question answering and summarization tasks in resource-constrained environments.
- Abstract(参考訳): 本稿では,表データ処理を効率的に行うように設計されたテーマ-説明構造に基づくテーブル要約(Tabular-TX)パイプラインを提案する。
Tabular-TXは、強調された細胞に焦点を当てて、表形式のデータを前処理する。
その後、構成された形式に従って要約文を生成し、そこでは、テーマ部が副詞句として現れ、説明部が予測節として続く。
提案手法は,テーブルの構造的特性とその可視性を考慮した調整解析を可能にする。
大規模ラベル付きデータや計算資源を必要とする従来の微調整手法とは異なり、本手法はIn-Context Learningを活用して異なるテーブル構造に動的に適応し、効率よくスケーラブルなテーブル解釈を実現する。
実験の結果,Tabular-TXはテーブル構造やメタデータをより効果的に利用することにより,特に低リソースシナリオにおいて従来の微調整手法よりも優れていた。
その結果,Tabular-TXにより複雑な表データのより効率的な処理が可能であることが確認された。
さらに、資源制約のある環境でのテーブルベースの質問応答および要約タスクの代替となる。
関連論文リスト
- Structural Deep Encoding for Table Question Answering [19.58143979341734]
トランスフォーマーベースのアーキテクチャは、しばしばテーブル構造をフラットにする。
これにより、行、列、セル間の本質的な相互依存性が失われる可能性がある。
本稿では,計算効率を向上するだけでなく,構造的整合性も維持する,テーブル状データのための新しいスパークアテンションマスクの設計を提案する。
論文 参考訳(メタデータ) (2025-03-03T12:16:43Z) - Knowledge in Triples for LLMs: Enhancing Table QA Accuracy with Semantic Extraction [1.0968343822308813]
本稿では,表型データから直交三重項を抽出し,それを検索拡張生成(RAG)モデルに統合することにより,微調整GPT-3.5-turbo-0125モデルにより生成された応答の精度,コヒーレンス,コンテキスト的リッチ性を向上させる手法を提案する。
FeTaQAデータセットの既存のベースライン、特にSacre-BLEUとROUGEの指標に優れています。
論文 参考訳(メタデータ) (2024-09-21T16:46:15Z) - UniTabNet: Bridging Vision and Language Models for Enhanced Table Structure Recognition [55.153629718464565]
我々は、画像からテキストへのモデルに基づくテーブル構造解析のための新しいフレームワークUniTabNetを紹介する。
UniTabNetは、画像とテキストのモデルを使ってテーブルセルを分離し、物理デコーダと論理デコーダを統合して完全なテーブル構造を再構築する。
論文 参考訳(メタデータ) (2024-09-20T01:26:32Z) - On the Robustness of Language Models for Tabular Question Answering [7.486549276995143]
大規模言語モデル(LLM)は、特定の訓練なしにテーブル理解タスクに取り組むことが示されている。
我々は,ウィキペディアベースのtextbfWTQ,財務報告ベースの textbfTAT-QA,科学クレームベースの textbfSCITAB,TQA データセット上での LLM の堅牢性を評価する。
論文 参考訳(メタデータ) (2024-06-18T15:41:15Z) - QFMTS: Generating Query-Focused Summaries over Multi-Table Inputs [63.98556480088152]
表要約は、情報を簡潔で分かりやすいテキスト要約に凝縮するための重要な課題である。
本稿では,クエリ中心のマルチテーブル要約を導入することで,これらの制約に対処する新しい手法を提案する。
提案手法は,テーブルシリアライズモジュール,要約コントローラ,および大規模言語モデルからなり,ユーザの情報要求に合わせたクエリ依存のテーブル要約を生成する。
論文 参考訳(メタデータ) (2024-05-08T15:05:55Z) - Chain-of-Table: Evolving Tables in the Reasoning Chain for Table
Understanding [79.9461269253121]
そこで我々は、中間思考のプロキシとして、図表データを推論チェーンで明示的に使用するChain-of-Tableフレームワークを提案する。
Chain-of-TableはWikiTQ、FeTaQA、TabFactベンチマークで最新のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-01-09T07:46:26Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - UniTabE: A Universal Pretraining Protocol for Tabular Foundation Model
in Data Science [16.384705926693073]
本研究は,データサイエンスにおける表上での予測を容易にするために,事前学習方法論の能力を拡張することを目的とする。
テーブルを一様に処理するために設計されたUniTabEは、特定のテーブル構造によって課される制約を無視する。
プレトレーニングフェーズを実装するため,Kaggleプラットフォームから正確に収集した約13Bサンプルからなる拡張データセットをキュレートした。
論文 参考訳(メタデータ) (2023-07-18T13:28:31Z) - SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。
本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。
SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文 参考訳(メタデータ) (2023-03-08T05:15:01Z) - Optimization Techniques for Unsupervised Complex Table Reasoning via Self-Training Framework [5.351873055148804]
自己学習フレームワークは複雑な論理を持つ多様な合成データを生成する。
我々は「テーブル・テキスト・マニピュレータ(Table-Text Manipulator)」を用いて、共同テーブル・テキスト推論シナリオの処理を最適化する。
UCTRSTは、異なるタスクやドメインにおける教師付きモデルパフォーマンスの90%以上を達成する。
論文 参考訳(メタデータ) (2022-12-20T09:15:03Z) - Table Retrieval May Not Necessitate Table-specific Model Design [83.27735758203089]
テーブル検索のタスクに焦点をあてて、"テーブル固有のモデル設計はテーブル検索に必要か?
自然質問データセット (NQ-table) の表に基づく分析の結果, 70%以上の症例では構造が無視できる役割を担っていることがわかった。
次に、テーブル構造、すなわち補助列/カラム埋め込み、ハードアテンションマスク、ソフトリレーションに基づくアテンションバイアスを明示的にエンコードする3つのモジュールを実験する。
いずれも大きな改善は得られず、テーブル固有のモデル設計がテーブル検索に不要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:35:23Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z) - Identifying Table Structure in Documents using Conditional Generative
Adversarial Networks [0.0]
多くの産業や学術研究において、情報は主に構造化されていない文書の形で伝達される。
本稿では,まず,テーブルイメージを標準化されたスケルトンテーブル形式にマッピングするために,条件付き生成逆数ネットワークを用いたトップダウンアプローチを提案する。
次に、xy-cutプロジェクションと遺伝的アルゴリズムを用いた潜在テーブル構造を導出する。
論文 参考訳(メタデータ) (2020-01-13T20:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。