Fugu-MT 論文翻訳(概要): Text-Tuple-Table: Towards Information Integration in Text-to-Table Generation via Global Tuple Extraction

論文の概要: Text-Tuple-Table: Towards Information Integration in Text-to-Table Generation via Global Tuple Extraction

arxiv url: http://arxiv.org/abs/2404.14215v1
Date: Mon, 22 Apr 2024 14:31:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-23 13:47:08.913352
Title: Text-Tuple-Table: Towards Information Integration in Text-to-Table Generation via Global Tuple Extraction
Title（参考訳）: テキスト・タプル・テーブル:グローバル・タプル抽出によるテキスト・ツー・タブル生成における情報統合を目指して
Authors: Zheye Deng, Chunkit Chan, Weiqi Wang, Yuxi Sun, Wei Fan, Tianshi Zheng, Yauwai Yim, Yangqiu Song,
Abstract要約: リアルタイムのコメンタリーテキストに基づいたコンペの要約表を生成するためのベンチマークデータセットであるLiveSumを紹介する。我々は,このタスクにおける最先端の大規模言語モデルの性能を,微調整とゼロショットの両方で評価する。さらに、パフォーマンスを改善するために、$T3$(Text-Tuple-Table)と呼ばれる新しいパイプラインを提案する。
参考スコア（独自算出の注目度）: 36.915250638481986
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The task of condensing large chunks of textual information into concise and structured tables has gained attention recently due to the emergence of Large Language Models (LLMs) and their potential benefit for downstream tasks, such as text summarization and text mining. Previous approaches often generate tables that directly replicate information from the text, limiting their applicability in broader contexts, as text-to-table generation in real-life scenarios necessitates information extraction, reasoning, and integration. However, there is a lack of both datasets and methodologies towards this task. In this paper, we introduce LiveSum, a new benchmark dataset created for generating summary tables of competitions based on real-time commentary texts. We evaluate the performances of state-of-the-art LLMs on this task in both fine-tuning and zero-shot settings, and additionally propose a novel pipeline called $T^3$(Text-Tuple-Table) to improve their performances. Extensive experimental results demonstrate that LLMs still struggle with this task even after fine-tuning, while our approach can offer substantial performance gains without explicit training. Further analyses demonstrate that our method exhibits strong generalization abilities, surpassing previous approaches on several other text-to-table datasets. Our code and data can be found at https://github.com/HKUST-KnowComp/LiveSum-TTT.
Abstract（参考訳）: 近年,大規模言語モデル(LLM)の出現と,テキスト要約やテキストマイニングといった下流タスクの潜在的なメリットにより,大量のテキスト情報を簡潔で構造化されたテーブルに集約する作業が注目されている。現実のシナリオでは、テキストからテーブルへの生成は情報抽出、推論、統合を必要とするため、以前のアプローチでは、しばしばテキストから直接情報を複製し、より広い文脈で適用性を制限するテーブルを生成する。しかし、このタスクにはデータセットと方法論の両方が欠けている。本稿では,リアルタイムの注釈文に基づいて競合の要約表を生成するためのベンチマークデータセットLiveSumを紹介する。我々は,このタスクにおける最先端LCMの性能を微調整とゼロショットの両方で評価し,さらに,その性能を改善するために,$T^3$(Text-Tuple-Table)と呼ばれる新しいパイプラインを提案する。大規模な実験結果から,LLMは微調整後もまだこの課題に苦戦していることが明らかとなった。さらに,本手法は,他のテキスト・ツー・テーブル・データセットに先行する手法を超越して,強力な一般化能力を示すことを示す。私たちのコードとデータはhttps://github.com/HKUST-KnowComp/LiveSum-TTTで確認できます。

関連論文リスト

An Evaluation of Large Language Models on Text Summarization Tasks Using Prompt Engineering Techniques [0.0]
大規模言語モデル(LLM)は、人間のようなテキストを生成する能力を持って、自然言語処理の進歩を続けている。 CNN/Daily MailとNewsRoom(ニューズ)、SAMSum(ダイアログ)、ArXiv(サイエンティフィック)の4つのデータセットにまたがる6つのLCMを体系的に評価する。本研究では,ROUGEとBERTScoreの測定値を用いて評価を行った。 Longドキュメントには、短いコンテキストウィンドウを持つLLMが複数の段階で拡張入力を要約できる文ベースのチャンキング戦略が導入されている。
論文参考訳（メタデータ） (2025-07-07T15:34:05Z)
Can LLMs Generate Tabular Summaries of Science Papers? Rethinking the Evaluation Protocol [83.90769864167301]
文献レビュー表は、科学論文の集合を要約し比較するために欠かせないものである。学術論文の収集にあたり,ユーザの情報ニーズを最大限に満たす表を作成するタスクについて検討する。我々の貢献は、現実世界で遭遇する3つの重要な課題に焦点を当てている: (i)ユーザープロンプトは、しばしば未特定である; (ii)検索された候補論文は、しばしば無関係な内容を含む; (iii)タスク評価は、浅いテキスト類似性技術を超えて進むべきである。
論文参考訳（メタデータ） (2025-04-14T14:52:28Z)
RAGulator: Lightweight Out-of-Context Detectors for Grounded Text Generation [3.2234520582876467]
我々は,検索したテキスト文書から意味的にアウト・オブ・コンテクストであるLLM生成テキストを識別するために,軽量なモデルを訓練する。 DeBERTaはこのパイプラインの下で最高のパフォーマンスモデルであるだけでなく、高速で、追加のテキスト前処理や機能エンジニアリングを必要としないことも分かりました。
論文参考訳（メタデータ） (2024-11-06T13:51:42Z)
Integrating Planning into Single-Turn Long-Form Text Generation [66.08871753377055]
長文コンテンツを生成するための計画案を提案する。私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。実験では,LLMを補助タスクで微調整し,高品質な文書を生成する,異なる領域からの2つのデータセットを実証した。
論文参考訳（メタデータ） (2024-10-08T17:02:40Z)
Scaling Up Summarization: Leveraging Large Language Models for Long Text Extractive Summarization [0.27624021966289597]
本稿では,Large Language Models (LLM) を利用した抽出要約フレームワークであるEYEGLAXSを紹介する。 EYEGLAXSは、事実的および文法的整合性を保証するために抽出的な要約に焦点を当てている。このシステムはPubMedやArXivといった有名なデータセットに新しいパフォーマンスベンチマークを設定する。
論文参考訳（メタデータ） (2024-08-28T13:52:19Z)
TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools [51.576974932743596]
大規模言語モデル(LLM)は、テキスト間の情報の集約を必要とするクエリではよく機能しないことが多い。 TACTには、1つ以上のテキストに散らばる縫合情報を要求する難しい命令が含まれている。既存のテキストと関連するテーブルのデータセットを活用することで、このデータセットを構築します。現代のLLMはいずれも,このデータセットでは性能が悪く,精度が38%以下であることが実証された。
論文参考訳（メタデータ） (2024-06-05T20:32:56Z)
CT-Eval: Benchmarking Chinese Text-to-Table Performance in Large Language Models [36.82189550072201]
既存のテキスト・ツー・テーブルのデータセットは典型的には英語を指向する。大規模言語モデル(LLM)は、多言語設定における一般的なタスクソルバとして大きな成功を収めている。本研究は,中国語のテキスト・ツー・テーブル・データセットであるCT-Evalを用いてLCMのベンチマークを行う。
論文参考訳（メタデータ） (2024-05-20T16:58:02Z)
All Data on the Table: Novel Dataset and Benchmark for Cross-Modality Scientific Information Extraction [39.05577374775964]
本稿では,テキスト中のエンティティをアノテートする半教師付きパイプラインと,テーブル内のエンティティとリレーションを反復的に提案する。我々は,高品質なベンチマーク,大規模コーパス,半教師付きアノテーションパイプラインなど,科学コミュニティのための新たなリソースをリリースする。
論文参考訳（メタデータ） (2023-11-14T14:22:47Z)
Abstractive Text Summarization for Resumes With Cutting Edge NLP Transformers and LSTM [0.0]
LSTM、事前訓練されたモデル、微調整されたモデルは履歴書のデータセットを用いて評価された。履歴データセットを微調整したBART-Largeモデルは最高の性能を示した。
論文参考訳（メタデータ） (2023-06-23T06:33:20Z)
Harnessing Explanations: LLM-to-LM Interpreter for Enhanced Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。提案手法は、確立されたTAGデータセットの最先端結果を実現する。本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文参考訳（メタデータ） (2023-05-31T03:18:03Z)
QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文参考訳（メタデータ） (2023-05-23T17:43:51Z)
Summ^N: A Multi-Stage Summarization Framework for Long Input Dialogues and Documents [13.755637074366813]
SummNは、典型的な事前訓練されたLMの最大文脈長よりも長いテキストを入力するための、シンプルで柔軟で効果的な多段階フレームワークである。 LMコンテキストサイズを固定したままステージ数を調整することで任意の長さの入力テキストを処理できる。実験の結果,SummNは従来の最先端手法よりも有意に優れていた。
論文参考訳（メタデータ） (2021-10-16T06:19:54Z)
GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文参考訳（メタデータ） (2020-09-29T08:17:58Z)
POINTER: Constrained Progressive Text Generation via Insertion-based Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文参考訳（メタデータ） (2020-05-01T18:11:54Z)
ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文参考訳（メタデータ） (2020-04-29T17:53:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。