Fugu-MT 論文翻訳(概要): Beyond Extraction: Contextualising Tabular Data for Efficient Summarisation by Language Models

論文の概要: Beyond Extraction: Contextualising Tabular Data for Efficient Summarisation by Language Models

arxiv url: http://arxiv.org/abs/2401.02333v3
Date: Sat, 10 Feb 2024 12:35:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-13 21:09:30.299133
Title: Beyond Extraction: Contextualising Tabular Data for Efficient Summarisation by Language Models
Title（参考訳）: beyond extraction: 言語モデルによる効率的な要約のための表データコンテキスト化
Authors: Uday Allu, Biddwan Ahmed, Vishesh Tripathi
Abstract要約: Retrieval-Augmented Generation アーキテクチャの従来の利用は、様々な文書から情報を取得するのに有効であることが証明されている。本研究では,RAGに基づくシステムにおいて,複雑なテーブルクエリの精度を高めるための革新的なアプローチを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The conventional use of the Retrieval-Augmented Generation (RAG) architecture has proven effective for retrieving information from diverse documents. However, challenges arise in handling complex table queries, especially within PDF documents containing intricate tabular structures.This research introduces an innovative approach to enhance the accuracy of complex table queries in RAG-based systems. Our methodology involves storing PDFs in the retrieval database and extracting tabular content separately. The extracted tables undergo a process of context enrichment, concatenating headers with corresponding values. To ensure a comprehensive understanding of the enriched data, we employ a fine-tuned version of the Llama-2-chat language model for summarisation within the RAG architecture. Furthermore, we augment the tabular data with contextual sense using the ChatGPT 3.5 API through a one-shot prompt. This enriched data is then fed into the retrieval database alongside other PDFs. Our approach aims to significantly improve the precision of complex table queries, offering a promising solution to a longstanding challenge in information retrieval.
Abstract（参考訳）: Retrieval-Augmented Generation (RAG) アーキテクチャの従来の利用は、様々な文書から情報を取得するのに有効であることが証明されている。しかしながら,複雑なテーブルクエリを扱う場合,特に複雑な表構造を含むPDF文書では,RAGベースのシステムにおいて複雑なテーブルクエリの精度を高めるための革新的なアプローチが提案されている。本手法では,検索データベースにPDFを格納し,タブ状コンテンツを別々に抽出する。抽出されたテーブルはコンテキストエンリッチメントのプロセスに入り、ヘッダを対応する値に結合する。強化されたデータの包括的理解を確保するため、ragアーキテクチャ内で要約するためにllama-2-chat言語モデルの微調整バージョンを用いる。さらに,ChatGPT 3.5 APIをワンショットプロンプトで使用して,文脈感覚で表データを拡張する。このリッチなデータは、他のPDFと並んで検索データベースに送られる。提案手法は,複雑なテーブルクエリの精度を大幅に向上し,情報検索における長年の課題に対して有望な解決策を提供することを目的としている。

関連論文リスト

TableRAG: A Retrieval Augmented Generation Framework for Heterogeneous Document Reasoning [3.1480184228320205]
Retrieval-Augmented Generation (RAG) は、オープンドメイン質問応答においてかなりの効果を示した。既存のRAGアプローチでは、異種文書に適用する場合に限界がある。本研究では,表データに対するテキスト理解と複雑な操作を統一するフレームワークであるTableRAGを提案する。また,マルチホップ不均一推論能力を評価するための新しいベンチマークであるHeteQAを開発した。
論文参考訳（メタデータ） (2025-06-12T06:16:49Z)
HD-RAG: Retrieval-Augmented Generation for Hybrid Documents Containing Text and Hierarchical Tables [2.915799083273604]
本稿では,行と列のテーブル表現を組み込んだ新しいフレームワークであるHD-RAGを紹介する。我々はDocRAGLibを用いて総合的な実験を行い、HD-RAGは検索精度とQA性能の両方において既存のベースラインを上回っていることを示す。
論文参考訳（メタデータ） (2025-04-13T13:02:33Z)
Generative Retrieval for Book search [106.67655212825025]
書籍検索のための効率的な生成検索フレームワークを提案する。データ拡張とアウトライン指向の書籍エンコーディングの2つの主要コンポーネントがある。プロプライエタリなBaiduデータセットの実験では、GBSが強力なベースラインを上回ることが示されている。
論文参考訳（メタデータ） (2025-01-19T12:57:13Z)
ConTReGen: Context-driven Tree-structured Retrieval for Open-domain Long-form Text Generation [26.4086456393314]
長い形式のテキスト生成には、幅と深さの両方で複雑なクエリに対処する一貫性のある包括的な応答が必要である。既存の反復的な検索拡張生成アプローチは、複雑なクエリの各側面を深く掘り下げるのに苦労することが多い。本稿では,コンテキスト駆動型木構造検索手法を用いた新しいフレームワークであるConTReGenを紹介する。
論文参考訳（メタデータ） (2024-10-20T21:17:05Z)
TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。 TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文参考訳（メタデータ） (2024-10-07T04:15:02Z)
Knowledge in Triples for LLMs: Enhancing Table QA Accuracy with Semantic Extraction [1.0968343822308813]
本稿では,表型データから直交三重項を抽出し,それを検索拡張生成(RAG)モデルに統合することにより,微調整GPT-3.5-turbo-0125モデルにより生成された応答の精度,コヒーレンス,コンテキスト的リッチ性を向上させる手法を提案する。 FeTaQAデータセットの既存のベースライン、特にSacre-BLEUとROUGEの指標に優れています。
論文参考訳（メタデータ） (2024-09-21T16:46:15Z)
RoundTable: Leveraging Dynamic Schema and Contextual Autocomplete for Enhanced Query Precision in Tabular Question Answering [11.214912072391108]
現実世界のデータセットは、大きな属性と複雑な値の配列を特徴とすることが多い。従来の手法ではデータセットのサイズと複雑さをLarge Language Modelsに完全にリレーすることはできません。入力テーブル上でFTS(Full-Text Search)を利用する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-22T13:13:06Z)
Database-Augmented Query Representation for Information Retrieval [59.57065228857247]
データベース拡張クエリ表現(DAQu)と呼ばれる新しい検索フレームワークを提案する。 DAQuは、元のクエリを複数のテーブルにまたがるさまざまな(クエリ関連の)メタデータで拡張する。リレーショナルデータベースのメタデータを組み込む様々な検索シナリオにおいてDAQuを検証する。
論文参考訳（メタデータ） (2024-06-23T05:02:21Z)
QFMTS: Generating Query-Focused Summaries over Multi-Table Inputs [63.98556480088152]
表要約は、情報を簡潔で分かりやすいテキスト要約に凝縮するための重要な課題である。本稿では,クエリ中心のマルチテーブル要約を導入することで,これらの制約に対処する新しい手法を提案する。提案手法は,テーブルシリアライズモジュール,要約コントローラ,および大規模言語モデルからなり,ユーザの情報要求に合わせたクエリ依存のテーブル要約を生成する。
論文参考訳（メタデータ） (2024-05-08T15:05:55Z)
Decomposing Complex Queries for Tip-of-the-tongue Retrieval [72.07449449115167]
複雑なクエリは、コンテンツ要素(例えば、書籍の文字やイベント)、ドキュメントテキスト以外の情報を記述する。この検索設定は舌の先端 (TOT) と呼ばれ、クエリと文書テキスト間の語彙的および意味的重複に依存するモデルでは特に困難である。クエリを個別のヒントに分解し、サブクエリとしてルーティングし、特定の検索者にルーティングし、結果をアンサンブルすることで、このような複雑なクエリを扱うための、シンプルで効果的なフレームワークを導入します。
論文参考訳（メタデータ） (2023-05-24T11:43:40Z)
QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文参考訳（メタデータ） (2023-05-23T17:43:51Z)
Mixed-modality Representation Learning and Pre-training for Joint Table-and-Text Retrieval in OpenQA [85.17249272519626]
最適化された OpenQA Table-Text Retriever (OTTeR) を提案する。検索中心の混合モード合成事前学習を行う。 OTTeRはOTT-QAデータセット上でのテーブル・アンド・テキスト検索の性能を大幅に改善する。
論文参考訳（メタデータ） (2022-10-11T07:04:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。