論文の概要: NumHG: A Dataset for Number-Focused Headline Generation
- arxiv url: http://arxiv.org/abs/2309.01455v1
- Date: Mon, 4 Sep 2023 09:03:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 19:12:51.856645
- Title: NumHG: A Dataset for Number-Focused Headline Generation
- Title(参考訳): NumHG:Numan-Focused Headline Generationのためのデータセット
- Authors: Jian-Tao Huang, Chung-Chi Chen, Hen-Hsen Huang, Hsin-Hsi Chen
- Abstract要約: 見出し生成(英: Headline generation)は、抽象的な要約において重要なタスクであり、全長の記事を簡潔で単行のテキストに凝縮しようと試みている。
我々はNumHGという新しいデータセットを導入し、27,000以上の注釈付き数字に富んだニュース記事を詳細な調査のために提供している。
我々は,従来の見出し生成タスクから,数値的精度,妥当性,可読性の観点から,人間の評価を用いて5つの優れたモデルを評価する。
- 参考スコア(独自算出の注目度): 28.57003500212883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Headline generation, a key task in abstractive summarization, strives to
condense a full-length article into a succinct, single line of text. Notably,
while contemporary encoder-decoder models excel based on the ROUGE metric, they
often falter when it comes to the precise generation of numerals in headlines.
We identify the lack of datasets providing fine-grained annotations for
accurate numeral generation as a major roadblock. To address this, we introduce
a new dataset, the NumHG, and provide over 27,000 annotated numeral-rich news
articles for detailed investigation. Further, we evaluate five well-performing
models from previous headline generation tasks using human evaluation in terms
of numerical accuracy, reasonableness, and readability. Our study reveals a
need for improvement in numerical accuracy, demonstrating the potential of the
NumHG dataset to drive progress in number-focused headline generation and
stimulate further discussions in numeral-focused text generation.
- Abstract(参考訳): 要約要約における重要なタスクである見出し生成は、全文を簡潔で簡潔な一行のテキストに集約することを目指している。
特に、現代のエンコーダ・デコーダモデルはROUGEメートル法に基づいて排他的だが、見出し中の数値の正確な生成に関しては、しばしば混乱する。
正確な数値生成のための細かなアノテーションを提供するデータセットの欠如を、大きな障害と捉えています。
そこで本研究では,新たなデータセットであるNumHGを導入し,詳細な調査のために27,000以上の注釈付き数値リッチニュース記事を提供する。
さらに,従来の見出し生成タスクから,数値的精度,合理性,可読性の観点から,人間の評価を用いて5つの優れたモデルを評価する。
本研究は,数値的精度の向上の必要性を明らかにするとともに,NumHGデータセットが数量中心の見出し生成の進展を加速し,数中心のテキスト生成におけるさらなる議論を促進する可能性を示す。
関連論文リスト
- Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Optimizing Factual Accuracy in Text Generation through Dynamic Knowledge
Selection [71.20871905457174]
言語モデル(LM)は、私たちが情報と対話する方法に革命をもたらしたが、しばしば非現実的なテキストを生成する。
従来の手法では、外部知識をテキスト生成の参照として使用して事実性を高めるが、無関係な参照の知識の混在に苦慮することが多い。
本稿では,テキスト生成プロセスを反復処理に分割するDKGenを提案する。
論文 参考訳(メタデータ) (2023-08-30T02:22:40Z) - How to Choose Pretrained Handwriting Recognition Models for Single
Writer Fine-Tuning [23.274139396706264]
近年のDeep Learning-based Handwriting Text Recognition (HTR) の進歩は、現代の写本や歴史文書に顕著な性能を持つモデルを生み出している。
これらのモデルは、言語、紙の支持、インク、著者の筆跡など、独特の特徴を持つ写本に適用した場合、同じパフォーマンスを得るのに苦労している。
本稿では,手書きテキスト生成モデルを用いて得られた,大規模で実際のベンチマークデータセットと合成データセットについて考察する。
我々は,5行の実際の微調整行数で,原稿を効果的に書き起こし可能なHTRモデルを得るための,そのようなデータの最も関連性の高い特徴を定量的に示す。
論文 参考訳(メタデータ) (2023-05-04T07:00:28Z) - Grounded Keys-to-Text Generation: Towards Factual Open-Ended Generation [92.1582872870226]
そこで我々は,新しい接地型キー・ツー・テキスト生成タスクを提案する。
タスクは、ガイドキーと接地パスのセットが与えられたエンティティに関する事実記述を生成することである。
近年のQAに基づく評価手法に着想を得て,生成した記述の事実的正当性を示す自動計量MAFEを提案する。
論文 参考訳(メタデータ) (2022-12-04T23:59:41Z) - NumGPT: Improving Numeracy Ability of Generative Pre-trained Models [59.931394234642816]
テキスト中の数値特性を明示的にモデル化する生成事前学習モデルであるNumGPTを提案する。
具体的には、プロトタイプベースの数値埋め込みを利用して、数値の行列をエンコードし、個々の埋め込みをエンコードし、数値の指数をエンコードする。
数値認識損失関数は、NumGPTの事前学習目的に数値を統合するように設計されている。
論文 参考訳(メタデータ) (2021-09-07T15:06:12Z) - Introducing a new high-resolution handwritten digits data set with
writer characteristics [0.0]
収集した手書きの数字データセットを新たに導入する。
手書き文字の高精細な画像と様々な文字の特徴を含んでいる。
集められた複数のライターの特徴は、私たちのデータセットの斬新さであり、新しい研究機会を生み出します。
論文 参考訳(メタデータ) (2020-11-04T18:18:43Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Revisiting Challenges in Data-to-Text Generation with Fact Grounding [2.969705152497174]
大規模データセットであるRotoWire-FG(Ground-Facting)を導入し、2017-19年のデータは50%増加した。
我々は,テーブル再構築の新たな形式を統合することにより,最先端モデルに対するデータ忠実度の向上を実現した。
論文 参考訳(メタデータ) (2020-01-12T02:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。