論文の概要: Exploring the Impact of Table-to-Text Methods on Augmenting LLM-based Question Answering with Domain Hybrid Data
- arxiv url: http://arxiv.org/abs/2402.12869v2
- Date: Tue, 9 Apr 2024 09:00:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 19:27:41.016260
- Title: Exploring the Impact of Table-to-Text Methods on Augmenting LLM-based Question Answering with Domain Hybrid Data
- Title(参考訳): テーブル・ツー・テクスト法がLLMに基づくドメインハイブリッドデータによる質問回答の強化に及ぼす影響について
- Authors: Dehai Min, Nan Hu, Rihui Jin, Nuo Lin, Jiaoyan Chen, Yongrui Chen, Yu Li, Guilin Qi, Yun Li, Nijun Li, Qianren Wang,
- Abstract要約: テーブル・トゥ・テキスト生成は、ハイブリッドデータの一様テキスト形式のコーパスへの変換を容易にする、有望なソリューションである。
現在、異なるテーブル・ツー・テキスト・メソッドによって生成されたコーパスがQAシステムの性能に与える影響について比較分析は行われていない。
本稿では,LLMベースのQAシステムをドメインハイブリッドデータで拡張するフレームワークに,テーブル・ツー・テキスト生成を革新的に統合する。
- 参考スコア(独自算出の注目度): 29.07028542633284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Augmenting Large Language Models (LLMs) for Question Answering (QA) with domain specific data has attracted wide attention. However, domain data often exists in a hybrid format, including text and semi-structured tables, posing challenges for the seamless integration of information. Table-to-Text Generation is a promising solution by facilitating the transformation of hybrid data into a uniformly text-formatted corpus. Although this technique has been widely studied by the NLP community, there is currently no comparative analysis on how corpora generated by different table-to-text methods affect the performance of QA systems. In this paper, we address this research gap in two steps. First, we innovatively integrate table-to-text generation into the framework of enhancing LLM-based QA systems with domain hybrid data. Then, we utilize this framework in real-world industrial data to conduct extensive experiments on two types of QA systems (DSFT and RAG frameworks) with four representative methods: Markdown format, Template serialization, TPLM-based method, and LLM-based method. Based on the experimental results, we draw some empirical findings and explore the underlying reasons behind the success of some methods. We hope the findings of this work will provide a valuable reference for the academic and industrial communities in developing robust QA systems.
- Abstract(参考訳): 質問回答(QA)のための大規模言語モデル(LLM)をドメイン固有データで拡張することは、広く注目を集めている。
しかし、ドメインデータはしばしばテキストや半構造化テーブルを含むハイブリッド形式で存在し、情報のシームレスな統合の難しさを浮き彫りにしている。
テーブル・トゥ・テキスト生成は、ハイブリッドデータの一様テキスト形式のコーパスへの変換を容易にする、有望なソリューションである。
この手法はNLPコミュニティによって広く研究されているが、現在、異なるテーブル・ツー・テキスト法によって生成されたコーパスがQAシステムの性能に与える影響について比較分析は行われていない。
本稿では,この研究ギャップを2つのステップで解決する。
まず、LLMベースのQAシステムをドメインハイブリッドデータで拡張するフレームワークにテーブル・ツー・テキスト・ジェネレーションを革新的に組み込む。
そして,本フレームワークを実世界の産業データに利用して,マークダウン形式,テンプレートシリアライゼーション,TPLM法,LLM法という4つの代表的な手法を用いて,2種類のQAシステム(DSFTおよびRAGフレームワーク)に関する広範な実験を行う。
実験結果に基づいて,いくつかの実験結果を示し,いくつかの手法の成功の背景にある根拠を探る。
本研究の成果が,堅牢なQAシステム開発における学術・産業コミュニティの貴重な参考となることを期待する。
関連論文リスト
- Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [85.51252685938564]
不確実性定量化(UQ)は、機械学習(ML)に依存するアプリケーションの重要なコンポーネントとして、ますます認識されつつある。
他のMLモデルと同様に、大きな言語モデル(LLM)は、クレームを作成することによって誤った予測をする傾向があり、あるいは与えられた入力に対して単に低品質の出力を生成する。
本稿では,最先端のUQベースラインの集合を実装した新しいベンチマークを提案し,新しいテクニックを制御可能かつ一貫した評価を行う環境を提供する。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - Peering into the Mind of Language Models: An Approach for Attribution in Contextual Question Answering [9.86691461253151]
大規模言語モデル(LLM)の隠れ状態表現を利用した文脈質問応答における帰属手法を提案する。
提案手法は,より詳細な属性を提供し,生成した回答の質を保ちながら,広範囲なモデル再訓練および検索モデルオーバーヘッドの必要性を回避している。
本稿では,LLM世代に対するトークンレベルのアノテーションを文脈質問応答設定に有する属性データセットであるVerifiability-granularを提案する。
論文 参考訳(メタデータ) (2024-05-28T09:12:44Z) - A Survey on Retrieval-Augmented Text Generation for Large Language Models [1.4579344926652844]
Retrieval-Augmented Generation (RAG)は、検索手法とディープラーニングの進歩を融合する。
本稿では,RAGパラダイムを検索前,検索後,検索後,生成の4つのカテゴリに分類する。
RAGの進化を概説し、重要な研究の分析を通して分野の進歩について論じている。
論文 参考訳(メタデータ) (2024-04-17T01:27:42Z) - Harnessing Multi-Role Capabilities of Large Language Models for
Open-Domain Question Answering [40.2758450304531]
オープンドメイン質問応答 (ODQA) は情報システムにおいて重要な研究スポットライトとなっている。
本稿では,ODQA処理をクエリ拡張,文書選択,回答生成という3つの基本ステップに定式化するフレームワークを提案する。
我々は,ロールプレイングプロンプトを洗練するための新しいプロンプト最適化アルゴリズムを導入し,高品質なエビデンスと回答を生成する。
論文 参考訳(メタデータ) (2024-03-08T11:09:13Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - How to Bridge the Gap between Modalities: A Comprehensive Survey on
Multimodal Large Language Model [12.890344377484759]
本稿では,MLLM(Multimodal Large Language Models)について概説する。
MLLMはGPT-4のような大規模言語モデル(LLM)を統合し、テキストやビジョンなどのマルチモーダルデータを処理する。
適切なモダリティアライメント法を選択することは重要である。
論文 参考訳(メタデータ) (2023-11-10T09:51:24Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - MMHQA-ICL: Multimodal In-context Learning for Hybrid Question Answering
over Text, Tables and Images [24.17147521556083]
コンテキスト内学習はQA問題を解決する最も一般的な方法となっている。
この問題に対処するためのMMHQA-ICLフレームワークを提案する。
私たちは、このタスクにエンドツーエンドのプロンプトメソッドを最初に使用しています。
論文 参考訳(メタデータ) (2023-09-09T13:35:01Z) - Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation [76.76046657162306]
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
論文 参考訳(メタデータ) (2023-08-29T14:59:54Z) - Mixed-modality Representation Learning and Pre-training for Joint
Table-and-Text Retrieval in OpenQA [85.17249272519626]
最適化された OpenQA Table-Text Retriever (OTTeR) を提案する。
検索中心の混合モード合成事前学習を行う。
OTTeRはOTT-QAデータセット上でのテーブル・アンド・テキスト検索の性能を大幅に改善する。
論文 参考訳(メタデータ) (2022-10-11T07:04:39Z) - Hybrid Generative-Retrieval Transformers for Dialogue Domain Adaptation [77.62366712130196]
マルチドメイン MetaLWOz データセットに微調整した GPT-2 に基づくハイブリッド生成・検索モデル DSTC8 の高速領域適応タスクにおける入賞条件について述べる。
提案モデルでは,MetaLWOz上の解析論理をフォールバックとして使用し,人間の評価におけるSoTA(第2位システムよりも4%向上)と,未知のMultiWOZデータセットに適応した競合一般化性能を実現する。
論文 参考訳(メタデータ) (2020-03-03T18:07:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。