論文の概要: Exploring the Impact of Table-to-Text Methods on Augmenting LLM-based Question Answering with Domain Hybrid Data
- arxiv url: http://arxiv.org/abs/2402.12869v2
- Date: Tue, 9 Apr 2024 09:00:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 19:27:41.016260
- Title: Exploring the Impact of Table-to-Text Methods on Augmenting LLM-based Question Answering with Domain Hybrid Data
- Title(参考訳): テーブル・ツー・テクスト法がLLMに基づくドメインハイブリッドデータによる質問回答の強化に及ぼす影響について
- Authors: Dehai Min, Nan Hu, Rihui Jin, Nuo Lin, Jiaoyan Chen, Yongrui Chen, Yu Li, Guilin Qi, Yun Li, Nijun Li, Qianren Wang,
- Abstract要約: テーブル・トゥ・テキスト生成は、ハイブリッドデータの一様テキスト形式のコーパスへの変換を容易にする、有望なソリューションである。
現在、異なるテーブル・ツー・テキスト・メソッドによって生成されたコーパスがQAシステムの性能に与える影響について比較分析は行われていない。
本稿では,LLMベースのQAシステムをドメインハイブリッドデータで拡張するフレームワークに,テーブル・ツー・テキスト生成を革新的に統合する。
- 参考スコア(独自算出の注目度): 29.07028542633284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Augmenting Large Language Models (LLMs) for Question Answering (QA) with domain specific data has attracted wide attention. However, domain data often exists in a hybrid format, including text and semi-structured tables, posing challenges for the seamless integration of information. Table-to-Text Generation is a promising solution by facilitating the transformation of hybrid data into a uniformly text-formatted corpus. Although this technique has been widely studied by the NLP community, there is currently no comparative analysis on how corpora generated by different table-to-text methods affect the performance of QA systems. In this paper, we address this research gap in two steps. First, we innovatively integrate table-to-text generation into the framework of enhancing LLM-based QA systems with domain hybrid data. Then, we utilize this framework in real-world industrial data to conduct extensive experiments on two types of QA systems (DSFT and RAG frameworks) with four representative methods: Markdown format, Template serialization, TPLM-based method, and LLM-based method. Based on the experimental results, we draw some empirical findings and explore the underlying reasons behind the success of some methods. We hope the findings of this work will provide a valuable reference for the academic and industrial communities in developing robust QA systems.
- Abstract(参考訳): 質問回答(QA)のための大規模言語モデル(LLM)をドメイン固有データで拡張することは、広く注目を集めている。
しかし、ドメインデータはしばしばテキストや半構造化テーブルを含むハイブリッド形式で存在し、情報のシームレスな統合の難しさを浮き彫りにしている。
テーブル・トゥ・テキスト生成は、ハイブリッドデータの一様テキスト形式のコーパスへの変換を容易にする、有望なソリューションである。
この手法はNLPコミュニティによって広く研究されているが、現在、異なるテーブル・ツー・テキスト法によって生成されたコーパスがQAシステムの性能に与える影響について比較分析は行われていない。
本稿では,この研究ギャップを2つのステップで解決する。
まず、LLMベースのQAシステムをドメインハイブリッドデータで拡張するフレームワークにテーブル・ツー・テキスト・ジェネレーションを革新的に組み込む。
そして,本フレームワークを実世界の産業データに利用して,マークダウン形式,テンプレートシリアライゼーション,TPLM法,LLM法という4つの代表的な手法を用いて,2種類のQAシステム(DSFTおよびRAGフレームワーク)に関する広範な実験を行う。
実験結果に基づいて,いくつかの実験結果を示し,いくつかの手法の成功の背景にある根拠を探る。
本研究の成果が,堅牢なQAシステム開発における学術・産業コミュニティの貴重な参考となることを期待する。
関連論文リスト
- A Survey on Retrieval-Augmented Text Generation for Large Language Models [1.4579344926652844]
Retrieval-Augmented Generation (RAG)は、検索手法とディープラーニングの進歩を融合する。
本稿では,RAGパラダイムを検索前,検索後,検索後,生成の4つのカテゴリに分類する。
RAGの進化を概説し、重要な研究の分析を通して分野の進歩について論じている。
論文 参考訳(メタデータ) (2024-04-17T01:27:42Z) - Harnessing Multi-Role Capabilities of Large Language Models for
Open-Domain Question Answering [40.2758450304531]
オープンドメイン質問応答 (ODQA) は情報システムにおいて重要な研究スポットライトとなっている。
本稿では,ODQA処理をクエリ拡張,文書選択,回答生成という3つの基本ステップに定式化するフレームワークを提案する。
我々は,ロールプレイングプロンプトを洗練するための新しいプロンプト最適化アルゴリズムを導入し,高品質なエビデンスと回答を生成する。
論文 参考訳(メタデータ) (2024-03-08T11:09:13Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - How to Bridge the Gap between Modalities: A Comprehensive Survey on
Multimodal Large Language Model [12.890344377484759]
本稿では,MLLM(Multimodal Large Language Models)について概説する。
MLLMはGPT-4のような大規模言語モデル(LLM)を統合し、テキストやビジョンなどのマルチモーダルデータを処理する。
適切なモダリティアライメント法を選択することは重要である。
論文 参考訳(メタデータ) (2023-11-10T09:51:24Z) - A Simple yet Efficient Ensemble Approach for AI-generated Text Detection [0.5840089113969194]
大規模言語モデル(LLM)は、人間の文章によく似たテキストを生成する際、顕著な能力を示した。
人工的に生成されたテキストと人間が作成したテキストを区別できる自動化アプローチを構築することが不可欠である。
本稿では,複数の構成 LLM からの予測をまとめて,シンプルで効率的な解を提案する。
論文 参考訳(メタデータ) (2023-11-06T13:11:02Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - MMHQA-ICL: Multimodal In-context Learning for Hybrid Question Answering
over Text, Tables and Images [24.17147521556083]
コンテキスト内学習はQA問題を解決する最も一般的な方法となっている。
この問題に対処するためのMMHQA-ICLフレームワークを提案する。
私たちは、このタスクにエンドツーエンドのプロンプトメソッドを最初に使用しています。
論文 参考訳(メタデータ) (2023-09-09T13:35:01Z) - Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation [76.76046657162306]
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
論文 参考訳(メタデータ) (2023-08-29T14:59:54Z) - Mixed-modality Representation Learning and Pre-training for Joint
Table-and-Text Retrieval in OpenQA [85.17249272519626]
最適化された OpenQA Table-Text Retriever (OTTeR) を提案する。
検索中心の混合モード合成事前学習を行う。
OTTeRはOTT-QAデータセット上でのテーブル・アンド・テキスト検索の性能を大幅に改善する。
論文 参考訳(メタデータ) (2022-10-11T07:04:39Z) - Open Domain Question Answering over Virtual Documents: A Unified
Approach for Data and Text [62.489652395307914]
我々は、知識集約型アプリケーションのための構造化知識を符号化する手段として、Data-to-text法、すなわち、オープンドメイン質問応答(QA)を用いる。
具体的には、ウィキペディアとウィキソースの3つのテーブルを付加知識源として使用する、データとテキスト上でのオープンドメインQAのための冗長化-レトリバー・リーダー・フレームワークを提案する。
UDT-QA(Unified Data and Text QA)は,知識インデックスの拡大を効果的に活用できることを示す。
論文 参考訳(メタデータ) (2021-10-16T00:11:21Z) - Hybrid Generative-Retrieval Transformers for Dialogue Domain Adaptation [77.62366712130196]
マルチドメイン MetaLWOz データセットに微調整した GPT-2 に基づくハイブリッド生成・検索モデル DSTC8 の高速領域適応タスクにおける入賞条件について述べる。
提案モデルでは,MetaLWOz上の解析論理をフォールバックとして使用し,人間の評価におけるSoTA(第2位システムよりも4%向上)と,未知のMultiWOZデータセットに適応した競合一般化性能を実現する。
論文 参考訳(メタデータ) (2020-03-03T18:07:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。