論文の概要: SciXGen: A Scientific Paper Dataset for Context-Aware Text Generation
- arxiv url: http://arxiv.org/abs/2110.10774v1
- Date: Wed, 20 Oct 2021 20:37:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-23 13:28:11.979496
- Title: SciXGen: A Scientific Paper Dataset for Context-Aware Text Generation
- Title(参考訳): SciXGen:コンテキスト対応テキスト生成のための科学論文データセット
- Authors: Hong Chen, Hiroya Takamura, Hideki Nakayama
- Abstract要約: 我々は、科学領域におけるtextbfcontext-aware テキスト生成という新しいタスクを提案する。
我々は、ContetextbfXt-Aware TextbfGeneration (SciXGen)のための新しい大規模テキストbfScientific Paperデータセットを提案する。
SciXGenデータセットが記述と段落の生成に有効であることを示す。
- 参考スコア(独自算出の注目度): 27.064042116555925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating texts in scientific papers requires not only capturing the content
contained within the given input but also frequently acquiring the external
information called \textit{context}. We push forward the scientific text
generation by proposing a new task, namely \textbf{context-aware text
generation} in the scientific domain, aiming at exploiting the contributions of
context in generated texts. To this end, we present a novel challenging
large-scale \textbf{Sci}entific Paper Dataset for Conte\textbf{X}t-Aware Text
\textbf{Gen}eration (SciXGen), consisting of well-annotated 205,304 papers with
full references to widely-used objects (e.g., tables, figures, algorithms) in a
paper. We comprehensively benchmark, using state-of-the-arts, the efficacy of
our newly constructed SciXGen dataset in generating description and paragraph.
Our dataset and benchmarks will be made publicly available to hopefully
facilitate the scientific text generation research.
- Abstract(参考訳): 科学論文中のテキストを生成するには、入力に含まれるコンテンツをキャプチャするだけでなく、しばしば \textit{context} と呼ばれる外部情報を取得する必要がある。
我々は,新しいタスクである \textbf{context-aware text generation} を科学領域で提案することで,文脈の寄与を活用し,科学的テキスト生成を推進する。
そこで本稿では,conte\textbf{x}t-aware text \textbf{gen}eration (scixgen) に対して,広く使用されているオブジェクト (例えば表,図形,アルゴリズム) への完全な参照を持つ205,304枚の注釈付き論文からなる,大規模に挑戦的な論文データセットを提案する。
我々は,最新の技術を用いて,新たに構築したscixgenデータセットによる記述と段落生成の有効性を総合的にベンチマークした。
私たちのデータセットとベンチマークは、科学的なテキスト生成研究を促進するために公開されます。
関連論文リスト
- Augmenting Textual Generation via Topology Aware Retrieval [30.933176170660683]
トポロジを意識した検索型検索生成フレームワークを開発した。
このフレームワークは、トポロジ的関係に基づいてテキストを選択する検索モジュールを含む。
我々は,確立したテキスト配信ネットワークをキュレートし,本フレームワークの有効性を検証するための総合的な実験を行った。
論文 参考訳(メタデータ) (2024-05-27T19:02:18Z) - CiteBench: A benchmark for Scientific Citation Text Generation [69.37571393032026]
CiteBenchは引用テキスト生成のベンチマークである。
CiteBenchのコードはhttps://github.com/UKPLab/citebench.comで公開しています。
論文 参考訳(メタデータ) (2022-12-19T16:10:56Z) - Event Transition Planning for Open-ended Text Generation [55.729259805477376]
オープンエンドテキスト生成タスクは、事前コンテキストに制限されたコヒーレントな継続を生成するためにモデルを必要とする。
オープンエンドテキスト生成におけるイベントを明示的にアレンジする新しい2段階手法を提案する。
我々のアプローチは、特別に訓練された粗大なアルゴリズムとして理解することができる。
論文 参考訳(メタデータ) (2022-04-20T13:37:51Z) - A Benchmark Corpus for the Detection of Automatically Generated Text in
Academic Publications [0.02578242050187029]
本稿では,人工的な研究内容からなる2つのデータセットについて述べる。
第1のケースでは、コンテンツはオリジナルの論文から短いプロンプトを抽出した後、GPT-2モデルで完全に生成される。
部分的あるいはハイブリッドなデータセットは、いくつかの抽象文をArxiv-NLPモデルによって生成される文に置き換えることで生成される。
BLEU や ROUGE などの流速指標を用いて,生成したテキストと整列した原文とを比較し,データセットの品質を評価する。
論文 参考訳(メタデータ) (2022-02-04T08:16:56Z) - SCROLLS: Standardized CompaRison Over Long Language Sequences [62.574959194373264]
SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。
SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。
すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
論文 参考訳(メタデータ) (2022-01-10T18:47:15Z) - Topic Modeling Based Extractive Text Summarization [0.0]
本稿では,潜在トピックに基づいて内容をクラスタリングすることで,テキストを要約する新しい手法を提案する。
我々は、テキスト要約へのアプローチにおいて、より使用量が少なく挑戦的なWikiHowデータセットを活用している。
論文 参考訳(メタデータ) (2021-06-29T12:28:19Z) - A Survey of Knowledge-Enhanced Text Generation [81.24633231919137]
テキスト生成の目標は、機械を人間の言語で表現できるようにすることである。
入力テキストを出力テキストにマッピングすることを学ぶことで、目的を達成するために、様々なニューラルエンコーダデコーダモデルが提案されている。
この問題に対処するために、研究者は入力テキスト以外の様々な種類の知識を生成モデルに組み込むことを検討してきた。
論文 参考訳(メタデータ) (2020-10-09T06:46:46Z) - From Standard Summarization to New Tasks and Beyond: Summarization with
Manifold Information [77.89755281215079]
テキスト要約は、原文書の短く凝縮した版を作成することを目的とした研究分野である。
現実世界のアプリケーションでは、ほとんどのデータは平易なテキスト形式ではない。
本稿では,現実のアプリケーションにおけるこれらの新しい要約タスクとアプローチについて調査する。
論文 参考訳(メタデータ) (2020-05-10T14:59:36Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。