論文の概要: ABEX: Data Augmentation for Low-Resource NLU via Expanding Abstract Descriptions
- arxiv url: http://arxiv.org/abs/2406.04286v1
- Date: Thu, 6 Jun 2024 17:29:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 13:40:27.608350
- Title: ABEX: Data Augmentation for Low-Resource NLU via Expanding Abstract Descriptions
- Title(参考訳): ABEX: 抽象記述の拡張による低リソースのNLUのためのデータ拡張
- Authors: Sreyan Ghosh, Utkarsh Tyagi, Sonal Kumar, C. K. Evuru, S Ramaneswaran, S Sakshi, Dinesh Manocha,
- Abstract要約: ABEXは自然言語理解(NLU)タスクのための生成データ拡張手法である。
まず、文書を簡潔で抽象的な記述に変換し、その結果の抽象化を拡張して新しい文書を生成する。
12のデータセットと4つの低リソース設定にまたがる4つのNLUタスクに対するABEXの有効性を示す。
- 参考スコア(独自算出の注目度): 44.938469262938725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present ABEX, a novel and effective generative data augmentation methodology for low-resource Natural Language Understanding (NLU) tasks. ABEX is based on ABstract-and-EXpand, a novel paradigm for generating diverse forms of an input document -- we first convert a document into its concise, abstract description and then generate new documents based on expanding the resultant abstraction. To learn the task of expanding abstract descriptions, we first train BART on a large-scale synthetic dataset with abstract-document pairs. Next, to generate abstract descriptions for a document, we propose a simple, controllable, and training-free method based on editing AMR graphs. ABEX brings the best of both worlds: by expanding from abstract representations, it preserves the original semantic properties of the documents, like style and meaning, thereby maintaining alignment with the original label and data distribution. At the same time, the fundamental process of elaborating on abstract descriptions facilitates diverse generations. We demonstrate the effectiveness of ABEX on 4 NLU tasks spanning 12 datasets and 4 low-resource settings. ABEX outperforms all our baselines qualitatively with improvements of 0.04% - 38.8%. Qualitatively, ABEX outperforms all prior methods from literature in terms of context and length diversity.
- Abstract(参考訳): 本稿では,低リソース自然言語理解(NLU)タスクのための新しい効果的な生成データ拡張手法であるABEXを提案する。
ABEXはABstract-and-EXpandをベースにしており、これは入力文書の多様な形式を生成するための新しいパラダイムです。
抽象的な記述を拡大するタスクを学習するために,我々はまず,抽象文書ペアを用いた大規模合成データセット上でBARTを訓練する。
次に、文書の抽象的な記述を生成するために、AMRグラフの編集に基づいて、シンプルで、制御可能で、トレーニング不要な方法を提案する。
抽象的な表現から拡張することで、スタイルや意味といったドキュメントの本来の意味的特性を保存し、元のラベルとデータ配布との整合性を維持する。
同時に、抽象的な記述を解明する基本的なプロセスは、多様な世代を後押しする。
12のデータセットと4つの低リソース設定にまたがる4つのNLUタスクに対するABEXの有効性を示す。
ABEXは、0.04%から38.8%の改善で、我々のベースラインを質的に上回る。
定性的には、AbeXは文脈と長さの多様性の観点から、文学から全ての先行手法を上回ります。
関連論文リスト
- Write Summary Step-by-Step: A Pilot Study of Stepwise Summarization [48.57273563299046]
本稿では,新たな文書が提案されるたびに追加の要約を生成するステップワイド要約の課題を提案する。
追加された要約は、新たに追加されたコンテンツを要約するだけでなく、以前の要約と一貫性を持たなければならない。
SSGは,自動計測と人的評価の両面から,最先端のパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2024-06-08T05:37:26Z) - Consistency Guided Knowledge Retrieval and Denoising in LLMs for
Zero-shot Document-level Relation Triplet Extraction [43.50683283748675]
文書レベルの関係トリプルト抽出(DocRTE)は、文書から意味的関係を持つエンティティを同時に抽出することを目的とした情報システムの基本課題である。
既存の手法は、かなりの量の完全なラベル付きデータに依存している。
ChatGPTやLLaMAのような最近の先進言語モデル(LLM)は、素晴らしい長文生成能力を示している。
論文 参考訳(メタデータ) (2024-01-24T17:04:28Z) - APIDocBooster: An Extract-Then-Abstract Framework Leveraging Large
Language Models for Augmenting API Documentation [21.417218830976488]
APIDocBoosterは、抽出的(長さ制限のない忠実な要約を可能にする)と抽象的要約(コヒーレントで簡潔な要約を生成する)の両方の利点を融合させる。
APIDocBoosterは2つのステージで構成されている。 textbfSentence textbfSection textbfClassification (CSSC) と textbfUPdate textbfSUMmarization (UPSUM) である。
論文 参考訳(メタデータ) (2023-12-18T05:15:50Z) - Document-Level In-Context Few-Shot Relation Extraction via Pre-Trained Language Models [29.94694305204144]
本稿では,文書レベルのインコンテクスト・イン・ショット関係抽出のための新しいフレームワークを提案する。
ドキュメントレベルの関係抽出用データセットとして最大であるDocREDを用いて,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-17T09:10:27Z) - Absformer: Transformer-based Model for Unsupervised Multi-Document
Abstractive Summarization [1.066048003460524]
MDS(Multi-document summarization)とは、複数の文書のテキストを簡潔な要約に要約する作業である。
抽象MDSは、自然言語生成技術を用いて、複数の文書の一貫性と流動性を備えた要約を生成することを目的としている。
本稿では、教師なし抽象要約生成のためのトランスフォーマーに基づく新しい手法であるAbsformerを提案する。
論文 参考訳(メタデータ) (2023-06-07T21:18:23Z) - ReSel: N-ary Relation Extraction from Scientific Text and Tables by
Learning to Retrieve and Select [53.071352033539526]
学術論文からN-ary関係を抽出する問題について考察する。
提案手法であるReSelは,このタスクを2段階のプロシージャに分解する。
3つの科学的情報抽出データセットに対する実験により、ReSelは最先端のベースラインを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-10-26T02:28:02Z) - Salience Allocation as Guidance for Abstractive Summarization [61.31826412150143]
本稿では, サリエンセ・サリエンス・ガイダンス(SEASON, SaliencE Allocation as Guidance for Abstractive SummarizatiON)を用いた新しい要約手法を提案する。
SEASONは、サリエンス予測の割り当てを利用して抽象的な要約を導き、異なる抽象性のある記事に順応する。
論文 参考訳(メタデータ) (2022-10-22T02:13:44Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Leveraging Information Bottleneck for Scientific Document Summarization [26.214930773343887]
本稿では,科学的長期文書を要約するための教師なし抽出手法を提案する。
文圧縮にInformation Bottleneckの原理を用いた以前の研究に触発され、文書レベルの要約に拡張する。
論文 参考訳(メタデータ) (2021-10-04T09:43:47Z) - Leveraging Graph to Improve Abstractive Multi-Document Summarization [50.62418656177642]
我々は、文書のよく知られたグラフ表現を活用することができる、抽象的多文書要約(MDS)モデルを開発する。
本モデルでは,長い文書の要約に欠かせない文書間関係を捉えるために,文書の符号化にグラフを利用する。
また,このモデルでは,要約生成プロセスの導出にグラフを利用することが可能であり,一貫性と簡潔な要約を生成するのに有用である。
論文 参考訳(メタデータ) (2020-05-20T13:39:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。