論文の概要: VTechAGP: An Academic-to-General-Audience Text Paraphrase Dataset and Benchmark Models
- arxiv url: http://arxiv.org/abs/2411.04825v1
- Date: Thu, 07 Nov 2024 16:06:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:39:29.764856
- Title: VTechAGP: An Academic-to-General-Audience Text Paraphrase Dataset and Benchmark Models
- Title(参考訳): VTechAGP: Academic-to-General-Audience Text Paraphrase Datasetとベンチマークモデル
- Authors: Ming Cheng, Jiaying Gong, Chenhan Yuan, William A. Ingram, Edward Fox, Hoda Eldardiry,
- Abstract要約: VTechAGPは、最初の学術から一般のテキストパラフレーズデータセットである。
また,新しい動的ソフトプロンプト生成言語モデルDSPT5を提案する。
トレーニングでは、動的プロンプトでキーワードを学習するために、コントラッシブ・ジェネレーション・ロス関数を利用する。
- 参考スコア(独自算出の注目度): 5.713983191152314
- License:
- Abstract: Existing text simplification or paraphrase datasets mainly focus on sentence-level text generation in a general domain. These datasets are typically developed without using domain knowledge. In this paper, we release a novel dataset, VTechAGP, which is the first academic-to-general-audience text paraphrase dataset consisting of 4,938 document-level these and dissertation academic and general-audience abstract pairs from 8 colleges authored over 25 years. We also propose a novel dynamic soft prompt generative language model, DSPT5. For training, we leverage a contrastive-generative loss function to learn the keyword vectors in the dynamic prompt. For inference, we adopt a crowd-sampling decoding strategy at both semantic and structural levels to further select the best output candidate. We evaluate DSPT5 and various state-of-the-art large language models (LLMs) from multiple perspectives. Results demonstrate that the SOTA LLMs does not provide satisfactory outcomes, while the lightweight DSPT5 can achieve competitive results. To the best of our knowledge, we are the first to build a benchmark dataset and solutions for academic-to-general-audience text paraphrase dataset.
- Abstract(参考訳): 既存のテキスト単純化やパラフレーズデータセットは主に、一般的なドメインにおける文レベルのテキスト生成に焦点を当てている。
これらのデータセットは通常、ドメイン知識を使わずに開発される。
本稿では,25年以上に渡り著述された8つの大学における4,938の文書レベルと論文の要約と一般的な抽象的なペアからなる,学術的・一般的なテキストパラフレーズデータセットであるVTechAGPを新たにリリースする。
また,新しい動的ソフトプロンプト生成言語モデルDSPT5を提案する。
トレーニングでは,動的プロンプトのキーワードベクトルを学習するために,コントラッシブ・ジェネレーション・ロス関数を利用する。
推論には,セマンティックレベルと構造レベルの両方の集団サンプリングデコーディング戦略を採用し,最適な出力候補を更に選択する。
複数の視点からDSPT5および様々な最先端の大規模言語モデル(LLM)を評価する。
その結果,SOTA LLMは良好な結果が得られず,軽量DSPT5は競争力のある結果が得られることがわかった。
私たちの知る限りでは、私たちはまず、学術から一般のテキストパラフレーズデータセットのためのベンチマークデータセットとソリューションを構築しました。
関連論文リスト
- Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。
PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。
パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文 参考訳(メタデータ) (2024-05-21T11:22:27Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Keyword Extraction from Short Texts with~a~Text-To-Text Transfer
Transformer [0.0]
本稿では,ポーランド語におけるテキスト・テキスト・トランスフォーマ言語モデル(T5)の,短文文節からの内在的・外在的キーワード抽出作業との関連性について検討する。
plT5kw, extremeText, TermoPL, KeyBERT という4つの異なる手法で得られた結果を比較し, plT5kw モデルは, 頻繁かつ疎に表現されたキーワードに対して, 特に有望な結果をもたらすと結論付けた。
論文 参考訳(メタデータ) (2022-09-28T11:31:43Z) - Keyphrase Generation Beyond the Boundaries of Title and Abstract [28.56508031460787]
キーワード生成は、与えられた文書を最もよく記述するフレーズ(キーワード)を生成することを目的としている。
本研究では、意味論的に類似した記事からの追加データの統合や、与えられた記事の全文の統合が、ニューラルキーフレーズ生成モデルに役立つかどうかを考察する。
特に記事の要約形式で全文から文を追加することは、両方のキーフレーズの生成を著しく改善することを発見した。
論文 参考訳(メタデータ) (2021-12-13T16:33:01Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - Structured Multimodal Attentions for TextVQA [57.71060302874151]
上述の2つの問題を主に解決するために,終端から終端までの構造化マルチモーダルアテンション(SMA)ニューラルネットワークを提案する。
SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。
提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
論文 参考訳(メタデータ) (2020-06-01T07:07:36Z) - Text-to-Text Pre-Training for Data-to-Text Tasks [9.690158790639131]
データ・トゥ・テキスト・タスクのための事前訓練+微調整戦略について検討する。
実験により,テキストからテキストへの事前学習により,単純なエンドツーエンドのトランスフォーマーモデルが実現できることが示唆された。
論文 参考訳(メタデータ) (2020-05-21T02:46:15Z) - Have Your Text and Use It Too! End-to-End Neural Data-to-Text Generation
with Semantic Fidelity [3.8673630752805432]
本稿では,ニューラルでエンドツーエンドなデータ・ツー・テキスト生成システムであるDataTunerを紹介する。
我々は2段階の世代レベルのアプローチを採り、微調整言語モデルと意味的忠実さを組み合わせた。
我々は、DataTunerが4つの主要なD2Tデータセットにまたがる自動メトリクスにおいて、技術結果の状態を達成していることを示す。
論文 参考訳(メタデータ) (2020-04-08T11:16:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。