論文の概要: A Systematic Review of Data-to-Text NLG
- arxiv url: http://arxiv.org/abs/2402.08496v3
- Date: Tue, 27 Feb 2024 00:05:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 21:11:36.686396
- Title: A Systematic Review of Data-to-Text NLG
- Title(参考訳): Data-to-Text NLGのシステムレビュー
- Authors: Chinonso Cynthia Osuji, Thiago Castro Ferreira, Brian Davis
- Abstract要約: 高品質なテキストを生成する手法を探索し、テキスト生成における幻覚の課題に対処する。
テキスト品質の進歩にもかかわらず、このレビューは低リソース言語における研究の重要性を強調している。
- 参考スコア(独自算出の注目度): 2.4769539696439677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This systematic review undertakes a comprehensive analysis of current
research on data-to-text generation, identifying gaps, challenges, and future
directions within the field. Relevant literature in this field on datasets,
evaluation metrics, application areas, multilingualism, language models, and
hallucination mitigation methods is reviewed. Various methods for producing
high-quality text are explored, addressing the challenge of hallucinations in
data-to-text generation. These methods include re-ranking, traditional and
neural pipeline architecture, planning architectures, data cleaning, controlled
generation, and modification of models and training techniques. Their
effectiveness and limitations are assessed, highlighting the need for
universally applicable strategies to mitigate hallucinations. The review also
examines the usage, popularity, and impact of datasets, alongside evaluation
metrics, with an emphasis on both automatic and human assessment. Additionally,
the evolution of data-to-text models, particularly the widespread adoption of
transformer models, is discussed. Despite advancements in text quality, the
review emphasizes the importance of research in low-resourced languages and the
engineering of datasets in these languages to promote inclusivity. Finally,
several application domains of data-to-text are highlighted, emphasizing their
relevance in such domains. Overall, this review serves as a guiding framework
for fostering innovation and advancing data-to-text generation.
- Abstract(参考訳): この体系的なレビューは、データからテキストへの生成、分野におけるギャップ、課題、今後の方向性に関する現在の研究を包括的に分析している。
本分野におけるデータセット,評価指標,応用領域,多言語主義,言語モデル,幻覚緩和手法に関する文献を概説する。
データ対テキスト生成における幻覚の課題に対処し,高品質テキストを生成する様々な方法を検討した。
これらの手法には、リグレード、従来型およびニューラルパイプラインアーキテクチャ、プランニングアーキテクチャ、データクリーニング、制御された生成、モデルとトレーニングテクニックの変更が含まれる。
その効果と限界は評価され、幻覚を緩和するための普遍的な適用戦略の必要性が強調される。
レビューでは、自動評価と人的評価の両方に重点を置いて、評価指標とともにデータセットの使用、人気、影響についても検討している。
さらに,データ・ツー・テキストモデルの発展,特にトランスフォーマーモデルの普及について述べる。
テキスト品質の進歩にもかかわらず、このレビューは、低リソース言語における研究の重要性と、排他性を促進するためにこれらの言語におけるデータセットのエンジニアリングを強調している。
最後に、データ・ツー・テキストのアプリケーションドメインのいくつかが強調され、そのようなドメインとの関連性が強調される。
全体として、このレビューはイノベーションを促進し、データからテキストへの生成を促進するための指針となる。
関連論文リスト
- Analysis of Plan-based Retrieval for Grounded Text Generation [78.89478272104739]
幻覚は、言語モデルがそのパラメトリック知識の外で生成タスクが与えられるときに起こる。
この制限に対処するための一般的な戦略は、言語モデルに検索メカニズムを注入することである。
我々は,幻覚の頻度をさらに減少させるために,探索のガイドとして計画をどのように利用できるかを分析する。
論文 参考訳(メタデータ) (2024-08-20T02:19:35Z) - A Survey on Recent Advances in Conversational Data Generation [14.237954885530396]
マルチターン対話型データ生成の体系的・包括的レビューを行う。
オープンドメイン,タスク指向,情報検索の3種類の対話システムに注目した。
合成会話データを評価するための評価指標と手法について検討する。
論文 参考訳(メタデータ) (2024-05-12T10:11:12Z) - Large Language Models(LLMs) on Tabular Data: Prediction, Generation, and Understanding -- A Survey [17.19337964440007]
現在、この研究領域における主要なテクニック、メトリクス、データセット、モデル、最適化アプローチを要約し比較する包括的なレビューが欠如しています。
この調査は、これらの領域における最近の進歩を集約し、使用するデータセット、メトリクス、方法論の詳細な調査と分類を提供することによって、このギャップに対処することを目的としている。
既存の文献の強さ、限界、未探索領域、ギャップを識別し、この重要かつ急速に発展する分野における将来の研究の方向性についていくつかの洞察を提供する。
論文 参考訳(メタデータ) (2024-02-27T23:59:01Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Multi-Dimensional Evaluation of Text Summarization with In-Context
Learning [79.02280189976562]
本稿では,テキスト内学習を用いた多次元評価器として,大規模言語モデルの有効性について検討する。
実験の結果,テキスト要約作業において,文脈内学習に基づく評価手法が学習評価フレームワークと競合していることが判明した。
次に、テキスト内サンプルの選択や数などの要因がパフォーマンスに与える影響を分析する。
論文 参考訳(メタデータ) (2023-06-01T23:27:49Z) - Controllable Data Generation by Deep Learning: A Review [22.582082771890974]
制御可能な深層データ生成は有望な研究領域であり、一般に制御可能な深部データ生成として知られている。
本稿では、制御可能な深層データ生成のエキサイティングな応用を紹介し、既存の研究を実験的に分析し比較する。
論文 参考訳(メタデータ) (2022-07-19T20:44:42Z) - Faithfulness in Natural Language Generation: A Systematic Survey of
Analysis, Evaluation and Optimization Methods [48.47413103662829]
自然言語生成(NLG)は,事前学習型言語モデルなどの深層学習技術の発展により,近年大きく進歩している。
しかし、生成したテキストが通常不信または非実情報を含むという忠実性問題は、最大の課題となっている。
論文 参考訳(メタデータ) (2022-03-10T08:28:32Z) - ConvoSumm: Conversation Summarization Benchmark and Improved Abstractive
Summarization with Argument Mining [61.82562838486632]
我々は、さまざまなオンライン会話形式のニュースコメント、ディスカッションフォーラム、コミュニティ質問応答フォーラム、電子メールスレッドに関する4つの新しいデータセットをクラウドソースする。
我々は、データセットの最先端モデルをベンチマークし、データに関連する特徴を分析します。
論文 参考訳(メタデータ) (2021-06-01T22:17:13Z) - A Survey on Text Classification: From Shallow to Deep Learning [83.47804123133719]
過去10年は、ディープラーニングが前例のない成功を収めたために、この分野の研究が急増している。
本稿では,1961年から2021年までの最先端のアプローチを見直し,そのギャップを埋める。
特徴抽出と分類に使用されるテキストとモデルに基づいて,テキスト分類のための分類を作成する。
論文 参考訳(メタデータ) (2020-08-02T00:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。