論文の概要: Investigating Table-to-Text Generation Capabilities of LLMs in
Real-World Information Seeking Scenarios
- arxiv url: http://arxiv.org/abs/2305.14987v2
- Date: Mon, 30 Oct 2023 22:00:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 02:28:49.303637
- Title: Investigating Table-to-Text Generation Capabilities of LLMs in
Real-World Information Seeking Scenarios
- Title(参考訳): 実世界情報検索シナリオにおけるLCMのテーブル・ツー・テキスト生成能力の検討
- Authors: Yilun Zhao, Haowei Zhang, Shengyun Si, Linyong Nan, Xiangru Tang,
Arman Cohan
- Abstract要約: タブラルデータは様々な産業で広く使われており、ユーザが情報検索の目的を理解し、操作するのにかなりの時間と労力を要する。
テーブル情報探索における大規模言語モデル (LLM) の現実的応用は, いまだに実証されていない。
本稿では,2つの実世界情報探索シナリオ内の4つのデータセットを用いて,異なるLLMのテーブル・トゥ・テキスト機能について検討する。
- 参考スコア(独自算出の注目度): 32.84523661055774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tabular data is prevalent across various industries, necessitating
significant time and effort for users to understand and manipulate for their
information-seeking purposes. The advancements in large language models (LLMs)
have shown enormous potential to improve user efficiency. However, the adoption
of LLMs in real-world applications for table information seeking remains
underexplored. In this paper, we investigate the table-to-text capabilities of
different LLMs using four datasets within two real-world information seeking
scenarios. These include the LogicNLG and our newly-constructed LoTNLG datasets
for data insight generation, along with the FeTaQA and our newly-constructed
F2WTQ datasets for query-based generation. We structure our investigation
around three research questions, evaluating the performance of LLMs in
table-to-text generation, automated evaluation, and feedback generation,
respectively. Experimental results indicate that the current high-performing
LLM, specifically GPT-4, can effectively serve as a table-to-text generator,
evaluator, and feedback generator, facilitating users' information seeking
purposes in real-world scenarios. However, a significant performance gap still
exists between other open-sourced LLMs (e.g., Tulu and LLaMA-2) and GPT-4
models. Our data and code are publicly available at
https://github.com/yale-nlp/LLM-T2T.
- Abstract(参考訳): タブラルデータは様々な産業で広く使われており、ユーザが情報検索の目的を理解し、操作するのにかなりの時間と労力を要する。
大規模言語モデル(LLM)の進歩は、ユーザ効率を向上させる大きな可能性を示している。
しかし、テーブル情報探索のための実世界の応用におけるLLMの採用は、いまだに未定である。
本稿では,2つの実世界情報探索シナリオ内の4つのデータセットを用いて,異なるLLMのテーブル・トゥ・テキスト機能について検討する。
LogicNLGや、新たに構築したデータインサイト生成用のLoTNLGデータセット、FeTaQAやクエリベースの生成用のF2WTQデータセットなどです。
3つの研究課題について調査を行い,テーブル・ツー・テキスト生成,自動評価,フィードバック生成におけるllmの性能評価を行った。
実験結果から,現在の高性能LCM(特にGPT-4)は,実世界のシナリオにおいて,ユーザの情報検索を目的としたテーブル・ツー・テキスト・ジェネレータ,評価器,フィードバック・ジェネレータとして効果的に機能することが示唆された。
しかし、他のオープンソース LLM (Tulu と LLaMA-2) と GPT-4 の間には大きな性能差がある。
私たちのデータとコードはhttps://github.com/yale-nlp/LLM-T2Tで公開されています。
関連論文リスト
- Enhancing Discriminative Tasks by Guiding the Pre-trained Language Model with Large Language Model's Experience [4.814313782484443]
大規模言語モデル (LLM) と事前訓練型言語モデル (LM) は多くのソフトウェア工学のタスクにおいて驚くべき成功を収めた。
我々は、LLMを用いてドメイン固有のデータを生成し、目標タスクにおける事前学習されたLMの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-16T06:37:59Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - DCA-Bench: A Benchmark for Dataset Curation Agents [9.60250892491588]
隠れたデータセットの品質問題を検知する大規模言語モデルの能力を測定するために,データセットキュレーションエージェントベンチマークであるDCA-Benchを提案する。
具体的には、テストベッドとして8つのオープンデータセットプラットフォームから、さまざまな実世界のデータセット品質の問題を収集します。
提案したベンチマークは、単に問題解決を行うのではなく、問題発見におけるLLMの能力を測定するためのテストベッドとしても機能する。
論文 参考訳(メタデータ) (2024-06-11T14:02:23Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator [63.762209407570715]
Genixerは4つの重要なステップからなる包括的なデータ生成パイプラインである。
LLaVA1.5でトレーニングされた合成VQAライクなデータセットは、12のマルチモーダルベンチマークのうち10のパフォーマンスを向上させる。
タスク固有のデータセットで訓練されたMLLMは、複雑な命令チューニングデータを生成する際に、GPT-4Vを超えることができる。
論文 参考訳(メタデータ) (2023-12-11T09:44:41Z) - Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data? [49.688233418425995]
Struc-Benchは、大きな言語モデル(LLM)を特徴とする包括的なベンチマークである。
Pスコア(Prompting Score)とHスコア(Heuristical Score)の2つの革新的な指標を提案する。
実験の結果,LLaMA-7Bに構造認識の微調整を適用すると,性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-09-16T11:31:58Z) - Large Language Models as Data Preprocessors [9.99065004972981]
大規模言語モデル (LLM) は人工知能において大きな進歩を遂げている。
本研究では、データマイニングおよび分析アプリケーションにおいて重要な段階である、データ前処理におけるその可能性について検討する。
我々は,最先端のプロンプトエンジニアリング技術を統合したデータ前処理のためのLLMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-30T23:28:43Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - LLMMaps -- A Visual Metaphor for Stratified Evaluation of Large Language
Models [13.659853119356507]
大規模言語モデル(LLM)は自然言語処理に革命をもたらし、様々なタスクにおいて印象的な能力を示した。
彼らは幻覚を起こす傾向があり、モデルがその反応の中で誤った情報や誤った情報を公開する。
ユーザによるQ&Aデータセットに対するLLMの性能評価を可能にする新しい可視化手法として,LLMMapsを提案する。
論文 参考訳(メタデータ) (2023-04-02T05:47:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。