論文の概要: Extending Multi-Text Sentence Fusion Resources via Pyramid Annotations
- arxiv url: http://arxiv.org/abs/2110.04517v1
- Date: Sat, 9 Oct 2021 09:15:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 17:10:10.898787
- Title: Extending Multi-Text Sentence Fusion Resources via Pyramid Annotations
- Title(参考訳): ピラミッドアノテーションによる多文文融合資源の拡張
- Authors: Daniela Brook Weiss, Paul Roit, Ori Ernst, Ido Dagan
- Abstract要約: 本稿では、過去のデータセット作成の取り組みを再考し、大幅に拡張する。
拡張版では、複数のドキュメントタスクにもっと代表的なテキストを使用し、より大きく、より多様なトレーニングセットを提供しています。
- 参考スコア(独自算出の注目度): 12.394777121890925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: NLP models that compare or consolidate information across multiple documents
often struggle when challenged with recognizing substantial information
redundancies across the texts. For example, in multi-document summarization it
is crucial to identify salient information across texts and then generate a
non-redundant summary, while facing repeated and usually differently-phrased
salient content. To facilitate researching such challenges, the sentence-level
task of \textit{sentence fusion} was proposed, yet previous datasets for this
task were very limited in their size and scope. In this paper, we revisit and
substantially extend previous dataset creation efforts. With careful
modifications, relabeling and employing complementing data sources, we were
able to triple the size of a notable earlier dataset. Moreover, we show that
our extended version uses more representative texts for multi-document tasks
and provides a larger and more diverse training set, which substantially
improves model training.
- Abstract(参考訳): 複数の文書にまたがって情報を比較または統合するNLPモデルは、テキスト間で実質的な情報冗長性を認識することに挑戦するときにしばしば苦労する。
例えば、複数文書の要約では、テキストをまたいだ健全な情報を識別し、非冗長な要約を生成することが不可欠である。
このような課題の研究を容易にするために、textit{sentence fusion} の文レベルタスクが提案されたが、このタスクの以前のデータセットはそのサイズと範囲に限られていた。
本稿では,これまでのデータセット作成努力を再検討し,大幅に拡張する。
慎重に修正し、データソースを緩和し、補うことで、注目すべき以前のデータセットのサイズを3倍にしました。
さらに,本拡張版では,多文書タスクに代表的テキストを多用し,より大きく多様なトレーニングセットを提供し,モデルトレーニングを大幅に改善した。
関連論文リスト
- Converging Dimensions: Information Extraction and Summarization through Multisource, Multimodal, and Multilingual Fusion [0.0]
本稿では,複数の情報源の強みを生かして,このような課題に対処する新たな要約手法を提案する。
この研究は、テキストドキュメントのような従来型にない情報源を超えて進展し、YouTubeのプレイリスト、プレプリント、ウィキペディアページなど、より多様なデータを統合している。
論文 参考訳(メタデータ) (2024-06-19T17:15:47Z) - The Power of Summary-Source Alignments [62.76959473193149]
多文書要約(MDS)は難しい課題であり、しばしばサリエンスと冗長性検出のサブタスクに分解される。
参照要約とそのソース文書間の対応する文のアライメントを利用して、トレーニングデータを生成する。
本稿では,よりきめ細かな提案スパンレベルで適用することで,要約ソースアライメントフレームワークを拡張することを提案する。
論文 参考訳(メタデータ) (2024-06-02T19:35:19Z) - Peek Across: Improving Multi-Document Modeling via Cross-Document
Question-Answering [49.85790367128085]
我々は,事前学習対象に答える新しいクロスドキュメント質問から,汎用的なマルチドキュメントモデルを事前学習する。
この新規なマルチドキュメントQA定式化は、クロステキスト情報関係をよりよく回復させるようモデルに指示する。
分類タスクや要約タスクに焦点を当てた従来のマルチドキュメントモデルとは異なり、事前学習対象の定式化により、短いテキスト生成と長いテキスト生成の両方を含むタスクを実行できる。
論文 参考訳(メタデータ) (2023-05-24T17:48:40Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Large-Scale Multi-Document Summarization with Information Extraction and
Compression [31.601707033466766]
複数の異種文書のラベル付きデータとは無関係に抽象的な要約フレームワークを開発する。
我々のフレームワークは、同じトピックのドキュメントではなく、異なるストーリーを伝えるドキュメントを処理する。
我々の実験は、このより汎用的な設定において、我々のフレームワークが現在の最先端メソッドより優れていることを示した。
論文 参考訳(メタデータ) (2022-05-01T19:49:15Z) - Unsupervised Summarization with Customized Granularities [76.26899748972423]
本稿では,最初の教師なし多粒度要約フレームワークであるGranuSumを提案する。
異なる数のイベントを入力することで、GranuSumは教師なしの方法で複数の粒度のサマリーを生成することができる。
論文 参考訳(メタデータ) (2022-01-29T05:56:35Z) - Modeling Endorsement for Multi-Document Abstractive Summarization [10.166639983949887]
単一文書の要約と多文書の要約の重大な違いは、文書の中で健全なコンテンツがどのように現れるかである。
本稿では,複数文書要約における文書間補完効果とその活用をモデル化する。
提案手法は各文書から合成を生成し,他の文書から有意な内容を識別する支援者として機能する。
論文 参考訳(メタデータ) (2021-10-15T03:55:42Z) - Topic Modeling Based Extractive Text Summarization [0.0]
本稿では,潜在トピックに基づいて内容をクラスタリングすることで,テキストを要約する新しい手法を提案する。
我々は、テキスト要約へのアプローチにおいて、より使用量が少なく挑戦的なWikiHowデータセットを活用している。
論文 参考訳(メタデータ) (2021-06-29T12:28:19Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Pre-training via Paraphrasing [96.79972492585112]
教師なし多言語パラフレージング目的を用いて学習した,事前学習されたシーケンス・ツー・シーケンスモデルであるMARGEを紹介する。
ランダムな初期化のみを前提として,検索と再構築を共同で行うことができることを示す。
例えば、追加のタスク固有のトレーニングがなければ、文書翻訳のBLEUスコアは最大35.8に達する。
論文 参考訳(メタデータ) (2020-06-26T14:43:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。