Fugu-MT 論文翻訳(概要): Two Huge Title and Keyword Generation Corpora of Research Articles

論文の概要: Two Huge Title and Keyword Generation Corpora of Research Articles

arxiv url: http://arxiv.org/abs/2002.04689v1
Date: Tue, 11 Feb 2020 21:17:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-02 02:31:35.777475
Title: Two Huge Title and Keyword Generation Corpora of Research Articles
Title（参考訳）: 研究論文の2大タイトルとキーワード生成コーパス
Authors: Erion \c{C}ano, Ond\v{r}ej Bojar
Abstract要約: 本稿では,テキスト要約(OAGSX)とキーワード生成(OAGKX)の2つの巨大なデータセットを紹介する。データは、研究プロファイルと出版物のネットワークであるOpen Academic Graphから取得された。より具体的な分野から研究論文のサブセットを導出するために、この2つの集合にトピックモデリングを適用したい。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent developments in sequence-to-sequence learning with neural networks have considerably improved the quality of automatically generated text summaries and document keywords, stipulating the need for even bigger training corpora. Metadata of research articles are usually easy to find online and can be used to perform research on various tasks. In this paper, we introduce two huge datasets for text summarization (OAGSX) and keyword generation (OAGKX) research, containing 34 million and 23 million records, respectively. The data were retrieved from the Open Academic Graph which is a network of research profiles and publications. We carefully processed each record and also tried several extractive and abstractive methods of both tasks to create performance baselines for other researchers. We further illustrate the performance of those methods previewing their outputs. In the near future, we would like to apply topic modeling on the two sets to derive subsets of research articles from more specific disciplines.
Abstract（参考訳）: ニューラルネットワークを用いたシーケンス・ツー・シーケンス学習の最近の進歩は、自動生成されたテキスト要約と文書キーワードの品質を大幅に向上させ、さらに大きなトレーニングコーパスの必要性を規定している。研究論文のメタデータは通常オンラインで見つけやすく、様々なタスクの研究に使うことができる。本稿では,テキスト要約(OAGSX)とキーワード生成(OAGKX)の2つの巨大なデータセットを紹介する。データは、研究プロファイルと出版物のネットワークであるOpen Academic Graphから取得された。我々は各レコードを慎重に処理し、他の研究者のパフォーマンスベースラインを作成するために、両方のタスクの抽出的、抽象的手法を試した。さらに、出力をプレビューするこれらのメソッドのパフォーマンスについて説明する。近い将来、より特定の分野から研究論文のサブセットを導出するために、2つのセットにトピックモデリングを適用したい。

関連論文リスト

Deep Research: A Systematic Survey [118.82795024422722]
Deep Research (DR)は、大規模言語モデルの推論能力と検索エンジンなどの外部ツールを組み合わせることを目的としている。本調査は,深層研究システムの包括的かつ体系的な概要を提示する。
論文参考訳（メタデータ） (2025-11-24T15:28:28Z)
Social Good or Scientific Curiosity? Uncovering the Research Framing Behind NLP Artefacts [10.225194259153426]
NLPアーティファクトの研究フレームの明確化は、研究と実践的応用の整合化に不可欠である。最近の研究では、NLPの研究をドメイン間で手動で分析し、主要な利害関係者、意図された用途、あるいは適切なコンテキストを明確に特定する論文はほとんどないことを示した。まず、重要な要素(意味、目的、利害関係者)を抽出し、解釈可能なルールと文脈的推論を通してそれらをリンクすることによって、研究フレーミングを推論する3成分システムを開発する。
論文参考訳（メタデータ） (2025-05-24T12:46:26Z)
Enhancing Abstractive Summarization of Scientific Papers Using Structure Information [6.414732533433283]
本稿では,学術論文における構造的機能の自動認識を活用する2段階の抽象的要約フレームワークを提案する。第1段階では,多くの学術論文から章題を標準化し,構造関数認識のための大規模データセットを構築した。第2段階では、Longformerを用いて、セクション間のリッチなコンテキスト関係をキャプチャし、コンテキスト対応の要約を生成する。
論文参考訳（メタデータ） (2025-05-20T10:34:45Z)
Capturing research literature attitude towards Sustainable Development Goals: an LLM-based topic modeling approach [0.7806050661713976]
持続可能な開発目標は2015年に国連によって策定され、2030年までにこれらの世界的な課題に対処した。自然言語処理技術は、研究文献の中のSDGに関する議論を明らかにするのに役立つ。我々は,Scopusデータベースからコンテンツを取り出し,SDGの5つのグループ専用のデータセットを作成する,完全に自動化されたパイプラインを提案する。
論文参考訳（メタデータ） (2024-11-05T09:37:23Z)
Integrating Planning into Single-Turn Long-Form Text Generation [66.08871753377055]
長文コンテンツを生成するための計画案を提案する。私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。実験では,LLMを補助タスクで微調整し,高品質な文書を生成する,異なる領域からの2つのデータセットを実証した。
論文参考訳（メタデータ） (2024-10-08T17:02:40Z)
Synthesizing Scientific Summaries: An Extractive and Abstractive Approach [0.5904095466127044]
論文要約のためのハイブリッド手法を提案する。抽出段階では教師なし学習に基づく2つのモデルとトランスフォーマー言語モデルを用いる。ハイパーパラメータの特定の組み合わせを用いることで、自動要約システムが人間によって書かれた要約の抽象性を超えることが可能であることが判明した。
論文参考訳（メタデータ） (2024-07-29T08:21:42Z)
Named Entity Recognition Based Automatic Generation of Research Highlights [3.9410617513331863]
我々は,研究論文の異なるセクションを入力として,研究ハイライトを自動的に生成することを目指している。入力に名前付きエンティティ認識を用いることで、生成したハイライトの品質が向上するかどうかを検討する。
論文参考訳（メタデータ） (2023-02-25T16:33:03Z)
CiteBench: A benchmark for Scientific Citation Text Generation [69.37571393032026]
CiteBenchは引用テキスト生成のベンチマークである。 CiteBenchのコードはhttps://github.com/UKPLab/citebench.comで公開しています。
論文参考訳（メタデータ） (2022-12-19T16:10:56Z)
CitationIE: Leveraging the Citation Graph for Scientific Information Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文参考訳（メタデータ） (2021-06-03T03:00:12Z)
Sequential Sentence Classification in Research Papers using Cross-Domain Multi-Task Learning [4.2443814047515716]
本研究では,一様深層学習アーキテクチャとマルチタスク学習を提案する。当社のアプローチは,3つのベンチマークデータセット上でのテクニックの状況よりも優れています。
論文参考訳（メタデータ） (2021-02-11T13:54:10Z)
What's New? Summarizing Contributions in Scientific Literature [85.95906677964815]
本稿では,論文のコントリビューションと作業状況について,個別の要約を生成するために,論文要約のアンタングル化という新たなタスクを導入する。本稿では,学術論文のS2ORCコーパスを拡張し,コントリビューション・コントリビューション・コントリビューション・レファレンス・ラベルを付加する。本稿では, 生成した出力の関連性, 新規性, 絡み合いを報告する総合的自動評価プロトコルを提案する。
論文参考訳（メタデータ） (2020-11-06T02:23:01Z)
Topic-Centric Unsupervised Multi-Document Summarization of Scientific and News Articles [3.0504782036247438]
本稿では,トピック中心のマルチドキュメント要約フレームワークを提案し,抽象的な要約を生成する。提案アルゴリズムは,有能な言語単位選択とテキスト生成技術を開発することにより,抽象的な要約を生成する。提案手法は,自動抽出評価指標を用いて評価した場合の最先端技術と一致し,人間の5つの評価指標の抽象的要約に優れる。
論文参考訳（メタデータ） (2020-11-03T04:04:21Z)
KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation [100.79870384880333]
知識に富んだテキストを生成するための知識基盤事前学習(KGPT)を提案する。我々は、その効果を評価するために、3つの設定、すなわち、完全教師付き、ゼロショット、少数ショットを採用します。ゼロショット設定では、WebNLG上で30 ROUGE-L以上を達成するが、他の全てのベースラインは失敗する。
論文参考訳（メタデータ） (2020-10-05T19:59:05Z)
From Standard Summarization to New Tasks and Beyond: Summarization with Manifold Information [77.89755281215079]
テキスト要約は、原文書の短く凝縮した版を作成することを目的とした研究分野である。現実世界のアプリケーションでは、ほとんどのデータは平易なテキスト形式ではない。本稿では,現実のアプリケーションにおけるこれらの新しい要約タスクとアプローチについて調査する。
論文参考訳（メタデータ） (2020-05-10T14:59:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。