論文の概要: Enhance Long Text Understanding via Distilled Gist Detector from
Abstractive Summarization
- arxiv url: http://arxiv.org/abs/2110.04741v1
- Date: Sun, 10 Oct 2021 09:21:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 17:08:15.421078
- Title: Enhance Long Text Understanding via Distilled Gist Detector from
Abstractive Summarization
- Title(参考訳): 抽象要約による蒸留ギスト検出器による長文理解
- Authors: Yan Liu, Yazheng Yang
- Abstract要約: 我々は、長文理解において、ジスト関連かつ無関係な情報を解き放つ方法の問題点を考察する。
文書分類, 遠隔教師付きオープンドメイン質問応答 (DS-QA) および非並列テキストスタイルの転送実験により, 本手法がベースラインモデルの性能を大幅に向上できることが示された。
- 参考スコア(独自算出の注目度): 7.851265919027389
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long text understanding is important yet challenging in natural language
processing. A long article or essay usually contains many redundant words that
are not pertinent to its gist and sometimes can be regarded as noise. In this
paper, we consider the problem of how to disentangle the gist-relevant and
irrelevant information for long text understanding. With distillation
mechanism, we transfer the knowledge about how to focus the salient parts from
the abstractive summarization model and further integrate the distilled model,
named \emph{Gist Detector}, into existing models as a supplementary component
to augment the long text understanding. Experiments on document classification,
distantly supervised open-domain question answering (DS-QA) and non-parallel
text style transfer show that our method can significantly improve the
performance of the baseline models, and achieves state-of-the-art overall
results for document classification.
- Abstract(参考訳): 長い文章の理解は自然言語処理では重要だが難しい。
長い記事やエッセイは、通常、その要旨とは無関係で時としてノイズと見なされる多くの冗長な単語を含んでいる。
本稿では,長文理解において,ジスト関連情報と無関係情報を両立させる方法について考察する。
蒸留機構を用いて, 抽出要約モデルから抽出部を集中させる方法についての知識を移し, さらに, \emph{gist detector} と呼ばれる蒸留モデルを既存のモデルに統合し, 長文理解の強化を図る。
文書分類, 遠隔教師付きオープンドメイン質問応答 (DS-QA) および非並列テキストスタイルの転送実験により, 本手法がベースラインモデルの性能を大幅に向上し, 文書分類の総合的な結果が得られることを示した。
関連論文リスト
- Coarse-to-Fine Highlighting: Reducing Knowledge Hallucination in Large Language Models [58.952782707682815]
COFTは、異なるレベルのキーテキストにフォーカスする新しい方法であり、長いコンテキストで失われることを避ける。
知識幻覚ベンチマークの実験ではCOFTの有効性が示され、F1スコアの30%以上の性能が向上した。
論文 参考訳(メタデータ) (2024-10-19T13:59:48Z) - Hypergraph based Understanding for Document Semantic Entity Recognition [65.84258776834524]
我々は,ハイパグラフアテンションを利用したハイパグラフアテンション文書セマンティックエンティティ認識フレームワークHGAを構築し,エンティティ境界とエンティティカテゴリを同時に重視する。
FUNSD, CORD, XFUNDIE で得られた結果は,本手法が意味的エンティティ認識タスクの性能を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2024-07-09T14:35:49Z) - Improving Long Text Understanding with Knowledge Distilled from Summarization Model [17.39913210351487]
本稿では,要約モデルのgist検出能力を活用するためのemphGist Detectorを提案する。
Gist Detectorはまず、要約モデルから抽出したギスト検出知識を学習し、その後、ギスト認識表現を生成する。
提案手法は,長い文書分類,遠隔教師付きオープンドメイン質問応答,非並列テキストスタイル転送の3つのタスクで評価する。
論文 参考訳(メタデータ) (2024-05-08T10:49:39Z) - Factually Consistent Summarization via Reinforcement Learning with
Textual Entailment Feedback [57.816210168909286]
我々は,この問題を抽象的な要約システムで解くために,テキストエンテーメントモデルの最近の進歩を活用している。
我々は、事実整合性を最適化するために、レファレンスフリーのテキストエンターメント報酬を用いた強化学習を用いる。
自動測定と人的評価の両結果から,提案手法は生成した要約の忠実さ,サリエンス,簡潔さを著しく向上させることが示された。
論文 参考訳(メタデータ) (2023-05-31T21:04:04Z) - Toward Unifying Text Segmentation and Long Document Summarization [31.084738269628748]
文章・音声文書の抽出要約において,部分分割が果たす役割について検討する。
本手法は,要約とセグメンテーションを同時に行うことによって,頑健な文表現を学習する。
以上の結果から,本モデルは,公開ベンチマーク上での最先端性能を達成できるだけでなく,異種間転送性も向上できることが示唆された。
論文 参考訳(メタデータ) (2022-10-28T22:07:10Z) - Reinforcing Semantic-Symmetry for Document Summarization [15.113768658584979]
文書要約は、長い文書を詳細な情報と正確な意味記述を備えた短いバージョンに凝縮する。
本稿では,文書要約のための新しいtextbfreinforcing stextbfemantic-textbfsymmetric Learning textbfmodelを提案する。
CNN/Daily MailとBigPatentの2つの大胆なベンチマークデータセットに対して、一連の実験が行われた。
論文 参考訳(メタデータ) (2021-12-14T17:41:37Z) - Modular Self-Supervision for Document-Level Relation Extraction [17.039775384229355]
本稿では,文書レベルの関係抽出を関係検出と議論解決に分解する手法を提案する。
バイオメディカル・マシン・リーダーの精度オンコロジーにおいて,クロスパラグラフ関係の言及が一般的である点を徹底的に評価する。
提案手法は,マルチスケール学習やグラフニューラルネットワークなど,従来の技術よりも20以上の絶対的なF1点を達成している。
論文 参考訳(メタデータ) (2021-09-11T20:09:18Z) - BASS: Boosting Abstractive Summarization with Unified Semantic Graph [49.48925904426591]
BASSは、統合されたセマンティックグラフに基づく抽象的な要約を促進するためのフレームワークである。
文書表現と要約生成の両方を改善するために,グラフベースのエンコーダデコーダモデルを提案する。
実験結果から,提案アーキテクチャは長期文書および複数文書要約タスクに大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-05-25T16:20:48Z) - Enhancing Extractive Text Summarization with Topic-Aware Graph Neural
Networks [21.379555672973975]
本稿では,グラフニューラルネットワーク(GNN)に基づく抽出要約モデルを提案する。
本モデルでは,文章選択のための文書レベルの特徴を提供する潜在トピックを発見するために,共同ニューラルトピックモデル(NTM)を統合している。
実験結果から,CNN/DMおよびNYTデータセットにおいて,本モデルがほぼ最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T09:30:04Z) - Recurrent Chunking Mechanisms for Long-Text Machine Reading
Comprehension [59.80926970481975]
機械読解(MRC)を長文で研究する。
モデルは長い文書と質問を入力として取り、回答として文書からテキストを抽出する。
我々は、モデルに強化学習を通じてより柔軟な方法でチャンクを学習させることを提案する。
論文 参考訳(メタデータ) (2020-05-16T18:08:58Z) - Few-Shot Learning for Opinion Summarization [117.70510762845338]
オピニオン要約は、複数の文書で表現された主観的な情報を反映したテキストの自動生成である。
本研究では,要約テキストの生成をブートストラップするのには,少数の要約でも十分であることを示す。
提案手法は, 従来の抽出法および抽象法を, 自動的, 人的評価において大きく上回っている。
論文 参考訳(メタデータ) (2020-04-30T15:37:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。