論文の概要: CT-Eval: Benchmarking Chinese Text-to-Table Performance in Large Language Models
- arxiv url: http://arxiv.org/abs/2405.12174v1
- Date: Mon, 20 May 2024 16:58:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 12:45:20.537005
- Title: CT-Eval: Benchmarking Chinese Text-to-Table Performance in Large Language Models
- Title(参考訳): CT-Eval: 大規模言語モデルにおける中国語のテキスト・ツー・タブル性能のベンチマーク
- Authors: Haoxiang Shi, Jiaan Wang, Jiarong Xu, Cen Wang, Tetsuya Sakai,
- Abstract要約: 既存のテキスト・ツー・テーブルのデータセットは典型的には英語を指向する。
大規模言語モデル(LLM)は、多言語設定における一般的なタスクソルバとして大きな成功を収めている。
本研究は,中国語のテキスト・ツー・テーブル・データセットであるCT-Evalを用いてLCMのベンチマークを行う。
- 参考スコア(独自算出の注目度): 36.82189550072201
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-Table aims to generate structured tables to convey the key information from unstructured documents. Existing text-to-table datasets are typically oriented English, limiting the research in non-English languages. Meanwhile, the emergence of large language models (LLMs) has shown great success as general task solvers in multi-lingual settings (e.g., ChatGPT), theoretically enabling text-to-table in other languages. In this paper, we propose a Chinese text-to-table dataset, CT-Eval, to benchmark LLMs on this task. Our preliminary analysis of English text-to-table datasets highlights two key factors for dataset construction: data diversity and data hallucination. Inspired by this, the CT-Eval dataset selects a popular Chinese multidisciplinary online encyclopedia as the source and covers 28 domains to ensure data diversity. To minimize data hallucination, we first train an LLM to judge and filter out the task samples with hallucination, then employ human annotators to clean the hallucinations in the validation and testing sets. After this process, CT-Eval contains 88.6K task samples. Using CT-Eval, we evaluate the performance of open-source and closed-source LLMs. Our results reveal that zero-shot LLMs (including GPT-4) still have a significant performance gap compared with human judgment. Furthermore, after fine-tuning, open-source LLMs can significantly improve their text-to-table ability, outperforming GPT-4 by a large margin. In short, CT-Eval not only helps researchers evaluate and quickly understand the Chinese text-to-table ability of existing LLMs but also serves as a valuable resource to significantly improve the text-to-table performance of LLMs.
- Abstract(参考訳): Text-to-Tableは構造化されたテーブルを生成し、構造化されていないドキュメントからキー情報を伝達することを目的としている。
既存のテキストからテーブルへのデータセットは、典型的には英語指向であり、非英語言語の研究を制限する。
一方、大規模言語モデル(LLM)の出現は、理論的に他の言語でテキスト・ツー・テーブルを可能にする多言語設定(ChatGPTなど)における一般的なタスク・ソルバとして大きな成功を収めている。
本稿では,この課題に対するLCMのベンチマークを行うために,中国語のテキスト・ツー・テーブル・データセットであるCT-Evalを提案する。
英語のテキスト・ツー・テーブル・データセットの予備分析では、データセット構築の2つの重要な要素として、データの多様性とデータ幻覚を挙げている。
これにインスパイアされたCT-Evalデータセットは、人気の中国の多分野オンライン百科事典をソースとして選択し、データ多様性を確保するために28のドメインをカバーする。
データ幻覚を最小化するために、まずLLMを訓練して、幻覚でタスクサンプルを判断・フィルタリングし、次に人間の注釈を使って、検証とテストセットの幻覚をきれいにする。
このプロセスの後、CT-Evalは88.6Kのタスクサンプルを含む。
CT-Eval を用いて,オープンソースおよびクローズドソース LLM の性能評価を行った。
以上の結果から,ゼロショットLPM(GPT-4を含む)は,人間の判断に比較して有意な性能差がみられた。
さらに、微調整後、オープンソースのLCMはテキスト・ツー・テーブルの能力を大幅に向上させ、GPT-4を大きなマージンで上回る。
要するに、CT-Evalは、既存のLLMの中国語のテキスト・ツー・テーブル能力の評価と迅速な理解を支援するだけでなく、LLMのテキスト・ツー・テーブル性能を著しく向上させる貴重なリソースとしても役立つ。
関連論文リスト
- Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - CUDRT: Benchmarking the Detection Models of Human vs. Large Language Models Generated Texts [9.682499180341273]
大規模言語モデル(LLM)は、産業全体にわたってテキスト生成を大幅に強化した。
彼らの人間的なアウトプットは、人間とAIの作者の区別を困難にしている。
現在のベンチマークは主に静的データセットに依存しており、モデルベースの検出器の評価の有効性を制限している。
論文 参考訳(メタデータ) (2024-06-13T12:43:40Z) - Text-Tuple-Table: Towards Information Integration in Text-to-Table Generation via Global Tuple Extraction [36.915250638481986]
リアルタイムのコメンタリーテキストに基づいたコンペの要約表を生成するためのベンチマークデータセットであるLiveSumを紹介する。
我々は,このタスクにおける最先端の大規模言語モデルの性能を,微調整とゼロショットの両方で評価する。
さらに、パフォーマンスを改善するために、$T3$(Text-Tuple-Table)と呼ばれる新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:31:28Z) - UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - LLM-powered Data Augmentation for Enhanced Cross-lingual Performance [24.20730298894794]
本稿では,Large Language Models (LLMs) を利用したコモンセンス推論データセットにおけるデータ拡張の可能性について検討する。
これを実現するために、私たちは、XCOPA、XWinograd、XStoryClozeの3つのデータセットを増強するために、Dlly-v2、StableVicuna、ChatGPT、GPT-4といういくつかのLCMを利用する。
合成データを用いて,小型多言語モデルmBERTとXLMRの有効性を評価する。
論文 参考訳(メタデータ) (2023-05-23T17:33:27Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。