論文の概要: Interactive Distillation of Large Single-Topic Corpora of Scientific
Papers
- arxiv url: http://arxiv.org/abs/2309.10772v1
- Date: Tue, 19 Sep 2023 17:18:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 13:23:56.524000
- Title: Interactive Distillation of Large Single-Topic Corpora of Scientific
Papers
- Title(参考訳): 科学用紙の大規模シングルトピックコーパスの相互蒸留
- Authors: Nicholas Solovyev, Ryan Barron, Manish Bhattarai, Maksim E. Eren, Kim
O. Rasmussen, Boian S. Alexandrov
- Abstract要約: より堅牢だが時間を要するアプローチは、主題の専門家が文書を手書きするデータセットを構成的に構築することである。
ここでは,学術文献のターゲットデータセットを構築的に生成するための,機械学習に基づく新しいツールを紹介する。
- 参考スコア(独自算出の注目度): 1.2954493726326113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Highly specific datasets of scientific literature are important for both
research and education. However, it is difficult to build such datasets at
scale. A common approach is to build these datasets reductively by applying
topic modeling on an established corpus and selecting specific topics. A more
robust but time-consuming approach is to build the dataset constructively in
which a subject matter expert (SME) handpicks documents. This method does not
scale and is prone to error as the dataset grows. Here we showcase a new tool,
based on machine learning, for constructively generating targeted datasets of
scientific literature. Given a small initial "core" corpus of papers, we build
a citation network of documents. At each step of the citation network, we
generate text embeddings and visualize the embeddings through dimensionality
reduction. Papers are kept in the dataset if they are "similar" to the core or
are otherwise pruned through human-in-the-loop selection. Additional insight
into the papers is gained through sub-topic modeling using SeNMFk. We
demonstrate our new tool for literature review by applying it to two different
fields in machine learning.
- Abstract(参考訳): 科学文献の特定のデータセットは、研究と教育の両方において重要である。
しかし、このようなデータセットを大規模に構築することは困難である。
一般的なアプローチは、確立したコーパスにトピックモデリングを適用し、特定のトピックを選択することで、これらのデータセットを還元的に構築することである。
より堅牢だが時間を要するアプローチは、対象物の専門家(SME)が文書を手書きするデータセットの構築である。
この方法はスケールせず、データセットが大きくなるとエラーを起こしやすい。
ここでは,学術文献のターゲットデータセットを構築的に生成するための,機械学習に基づく新しいツールを紹介する。
文書の小さな"コア"コーパスを前提として,文書の引用ネットワークを構築した。
引用ネットワークの各ステップにおいて,テキスト埋め込みを生成し,次元還元による埋め込みを可視化する。
論文は、コアと"似ている"場合や、ループ内の人選によってプルされる場合、データセットに保持される。
論文に関するさらなる知見は、SeNMFkを用いたサブトピックモデリングを通じて得られる。
機械学習の2つの分野に適用することで、文献レビューのための新しいツールを実証する。
関連論文リスト
- SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - MatViX: Multimodal Information Extraction from Visually Rich Articles [6.349779979863784]
材料科学では、研究論文から構造化情報を抽出することで、新しい素材の発見を加速することができる。
textscMatViXは、324ドルのフル長の調査記事と1688ドルの複雑な構造化ファイルからなるベンチマークです。
これらのファイルは、テキスト、テーブル、フィギュアからフル長の文書から抽出され、MIEにとって包括的な課題となる。
論文 参考訳(メタデータ) (2024-10-27T16:13:58Z) - Integrating Planning into Single-Turn Long-Form Text Generation [66.08871753377055]
長文コンテンツを生成するための計画案を提案する。
私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。
実験では,LLMを補助タスクで微調整し,高品質な文書を生成する,異なる領域からの2つのデータセットを実証した。
論文 参考訳(メタデータ) (2024-10-08T17:02:40Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Modeling citation worthiness by using attention-based bidirectional long short-term memory networks and interpretable models [0.0]
本稿では,注目機構と文脈情報を備えたBidirectional Long Short-Term Memory (BiLSTM) ネットワークを提案し,引用を必要とする文を検出する。
我々は、PubMed Open Access Subsetに基づく新しい大規模データセット(PMOA-CITE)を作成します。
論文 参考訳(メタデータ) (2024-05-20T17:45:36Z) - CiteBench: A benchmark for Scientific Citation Text Generation [69.37571393032026]
CiteBenchは引用テキスト生成のベンチマークである。
CiteBenchのコードはhttps://github.com/UKPLab/citebench.comで公開しています。
論文 参考訳(メタデータ) (2022-12-19T16:10:56Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - Method and Dataset Entity Mining in Scientific Literature: A CNN +
Bi-LSTM Model with Self-attention [21.93889297841459]
MDERと呼ばれる新しいエンティティ認識モデルを提案し、科学的論文から効果的にメソッドとデータセットを抽出することができる。
我々は,NLP,CV,データマイニング,AIの4つの研究分野の論文から構築したデータセットのモデルを評価する。
論文 参考訳(メタデータ) (2020-10-26T13:38:43Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Machine Identification of High Impact Research through Text and Image
Analysis [0.4737991126491218]
本稿では,引用の可能性が低い論文から高い論文を自動的に分離するシステムを提案する。
本システムでは,文書全体の外観を推測する視覚的分類器と,コンテンツインフォームド決定のためのテキスト分類器の両方を用いる。
論文 参考訳(メタデータ) (2020-05-20T19:12:24Z) - A Large-Scale Multi-Document Summarization Dataset from the Wikipedia
Current Events Portal [10.553314461761968]
MDS(Multi-document summarization)は、大規模な文書コレクションの内容を短い要約に圧縮することを目的としている。
この研究は、文書クラスタの総数と個々のクラスタのサイズの両方で大きいMDS用の新しいデータセットを示す。
論文 参考訳(メタデータ) (2020-05-20T14:33:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。