論文の概要: Text-Tuple-Table: Towards Information Integration in Text-to-Table Generation via Global Tuple Extraction
- arxiv url: http://arxiv.org/abs/2404.14215v1
- Date: Mon, 22 Apr 2024 14:31:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 13:47:08.913352
- Title: Text-Tuple-Table: Towards Information Integration in Text-to-Table Generation via Global Tuple Extraction
- Title(参考訳): テキスト・タプル・テーブル:グローバル・タプル抽出によるテキスト・ツー・タブル生成における情報統合を目指して
- Authors: Zheye Deng, Chunkit Chan, Weiqi Wang, Yuxi Sun, Wei Fan, Tianshi Zheng, Yauwai Yim, Yangqiu Song,
- Abstract要約: リアルタイムのコメンタリーテキストに基づいたコンペの要約表を生成するためのベンチマークデータセットであるLiveSumを紹介する。
我々は,このタスクにおける最先端の大規模言語モデルの性能を,微調整とゼロショットの両方で評価する。
さらに、パフォーマンスを改善するために、$T3$(Text-Tuple-Table)と呼ばれる新しいパイプラインを提案する。
- 参考スコア(独自算出の注目度): 36.915250638481986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of condensing large chunks of textual information into concise and structured tables has gained attention recently due to the emergence of Large Language Models (LLMs) and their potential benefit for downstream tasks, such as text summarization and text mining. Previous approaches often generate tables that directly replicate information from the text, limiting their applicability in broader contexts, as text-to-table generation in real-life scenarios necessitates information extraction, reasoning, and integration. However, there is a lack of both datasets and methodologies towards this task. In this paper, we introduce LiveSum, a new benchmark dataset created for generating summary tables of competitions based on real-time commentary texts. We evaluate the performances of state-of-the-art LLMs on this task in both fine-tuning and zero-shot settings, and additionally propose a novel pipeline called $T^3$(Text-Tuple-Table) to improve their performances. Extensive experimental results demonstrate that LLMs still struggle with this task even after fine-tuning, while our approach can offer substantial performance gains without explicit training. Further analyses demonstrate that our method exhibits strong generalization abilities, surpassing previous approaches on several other text-to-table datasets. Our code and data can be found at https://github.com/HKUST-KnowComp/LiveSum-TTT.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)の出現と,テキスト要約やテキストマイニングといった下流タスクの潜在的なメリットにより,大量のテキスト情報を簡潔で構造化されたテーブルに集約する作業が注目されている。
現実のシナリオでは、テキストからテーブルへの生成は情報抽出、推論、統合を必要とするため、以前のアプローチでは、しばしばテキストから直接情報を複製し、より広い文脈で適用性を制限するテーブルを生成する。
しかし、このタスクにはデータセットと方法論の両方が欠けている。
本稿では,リアルタイムの注釈文に基づいて競合の要約表を生成するためのベンチマークデータセットLiveSumを紹介する。
我々は,このタスクにおける最先端LCMの性能を微調整とゼロショットの両方で評価し,さらに,その性能を改善するために,$T^3$(Text-Tuple-Table)と呼ばれる新しいパイプラインを提案する。
大規模な実験結果から,LLMは微調整後もまだこの課題に苦戦していることが明らかとなった。
さらに,本手法は,他のテキスト・ツー・テーブル・データセットに先行する手法を超越して,強力な一般化能力を示すことを示す。
私たちのコードとデータはhttps://github.com/HKUST-KnowComp/LiveSum-TTTで確認できます。
関連論文リスト
- RAGulator: Lightweight Out-of-Context Detectors for Grounded Text Generation [3.2234520582876467]
我々は,検索したテキスト文書から意味的にアウト・オブ・コンテクストであるLLM生成テキストを識別するために,軽量なモデルを訓練する。
DeBERTaはこのパイプラインの下で最高のパフォーマンスモデルであるだけでなく、高速で、追加のテキスト前処理や機能エンジニアリングを必要としないことも分かりました。
論文 参考訳(メタデータ) (2024-11-06T13:51:42Z) - Integrating Planning into Single-Turn Long-Form Text Generation [66.08871753377055]
長文コンテンツを生成するための計画案を提案する。
私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。
実験では,LLMを補助タスクで微調整し,高品質な文書を生成する,異なる領域からの2つのデータセットを実証した。
論文 参考訳(メタデータ) (2024-10-08T17:02:40Z) - Scaling Up Summarization: Leveraging Large Language Models for Long Text Extractive Summarization [0.27624021966289597]
本稿では,Large Language Models (LLM) を利用した抽出要約フレームワークであるEYEGLAXSを紹介する。
EYEGLAXSは、事実的および文法的整合性を保証するために抽出的な要約に焦点を当てている。
このシステムはPubMedやArXivといった有名なデータセットに新しいパフォーマンスベンチマークを設定する。
論文 参考訳(メタデータ) (2024-08-28T13:52:19Z) - TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools [51.576974932743596]
大規模言語モデル(LLM)は、テキスト間の情報の集約を必要とするクエリではよく機能しないことが多い。
TACTには、1つ以上のテキストに散らばる縫合情報を要求する難しい命令が含まれている。
既存のテキストと関連するテーブルのデータセットを活用することで、このデータセットを構築します。
現代のLLMはいずれも,このデータセットでは性能が悪く,精度が38%以下であることが実証された。
論文 参考訳(メタデータ) (2024-06-05T20:32:56Z) - CT-Eval: Benchmarking Chinese Text-to-Table Performance in Large Language Models [36.82189550072201]
既存のテキスト・ツー・テーブルのデータセットは典型的には英語を指向する。
大規模言語モデル(LLM)は、多言語設定における一般的なタスクソルバとして大きな成功を収めている。
本研究は,中国語のテキスト・ツー・テーブル・データセットであるCT-Evalを用いてLCMのベンチマークを行う。
論文 参考訳(メタデータ) (2024-05-20T16:58:02Z) - All Data on the Table: Novel Dataset and Benchmark for Cross-Modality
Scientific Information Extraction [39.05577374775964]
本稿では,テキスト中のエンティティをアノテートする半教師付きパイプラインと,テーブル内のエンティティとリレーションを反復的に提案する。
我々は,高品質なベンチマーク,大規模コーパス,半教師付きアノテーションパイプラインなど,科学コミュニティのための新たなリソースをリリースする。
論文 参考訳(メタデータ) (2023-11-14T14:22:47Z) - Abstractive Text Summarization for Resumes With Cutting Edge NLP
Transformers and LSTM [0.0]
LSTM、事前訓練されたモデル、微調整されたモデルは履歴書のデータセットを用いて評価された。
履歴データセットを微調整したBART-Largeモデルは最高の性能を示した。
論文 参考訳(メタデータ) (2023-06-23T06:33:20Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。