Fugu-MT 論文翻訳(概要): Interactive Distillation of Large Single-Topic Corpora of Scientific Papers

論文の概要: Interactive Distillation of Large Single-Topic Corpora of Scientific Papers

arxiv url: http://arxiv.org/abs/2309.10772v1
Date: Tue, 19 Sep 2023 17:18:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-20 13:23:56.524000
Title: Interactive Distillation of Large Single-Topic Corpora of Scientific Papers
Title（参考訳）: 科学用紙の大規模シングルトピックコーパスの相互蒸留
Authors: Nicholas Solovyev, Ryan Barron, Manish Bhattarai, Maksim E. Eren, Kim O. Rasmussen, Boian S. Alexandrov
Abstract要約: より堅牢だが時間を要するアプローチは、主題の専門家が文書を手書きするデータセットを構成的に構築することである。ここでは,学術文献のターゲットデータセットを構築的に生成するための,機械学習に基づく新しいツールを紹介する。
参考スコア（独自算出の注目度）: 1.2954493726326113
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Highly specific datasets of scientific literature are important for both research and education. However, it is difficult to build such datasets at scale. A common approach is to build these datasets reductively by applying topic modeling on an established corpus and selecting specific topics. A more robust but time-consuming approach is to build the dataset constructively in which a subject matter expert (SME) handpicks documents. This method does not scale and is prone to error as the dataset grows. Here we showcase a new tool, based on machine learning, for constructively generating targeted datasets of scientific literature. Given a small initial "core" corpus of papers, we build a citation network of documents. At each step of the citation network, we generate text embeddings and visualize the embeddings through dimensionality reduction. Papers are kept in the dataset if they are "similar" to the core or are otherwise pruned through human-in-the-loop selection. Additional insight into the papers is gained through sub-topic modeling using SeNMFk. We demonstrate our new tool for literature review by applying it to two different fields in machine learning.
Abstract（参考訳）: 科学文献の特定のデータセットは、研究と教育の両方において重要である。しかし、このようなデータセットを大規模に構築することは困難である。一般的なアプローチは、確立したコーパスにトピックモデリングを適用し、特定のトピックを選択することで、これらのデータセットを還元的に構築することである。より堅牢だが時間を要するアプローチは、対象物の専門家(SME)が文書を手書きするデータセットの構築である。この方法はスケールせず、データセットが大きくなるとエラーを起こしやすい。ここでは,学術文献のターゲットデータセットを構築的に生成するための,機械学習に基づく新しいツールを紹介する。文書の小さな"コア"コーパスを前提として,文書の引用ネットワークを構築した。引用ネットワークの各ステップにおいて,テキスト埋め込みを生成し,次元還元による埋め込みを可視化する。論文は、コアと"似ている"場合や、ループ内の人選によってプルされる場合、データセットに保持される。論文に関するさらなる知見は、SeNMFkを用いたサブトピックモデリングを通じて得られる。機械学習の2つの分野に適用することで、文献レビューのための新しいツールを実証する。

関連論文リスト

MOLE: Metadata Extraction and Validation in Scientific Papers Using LLMs [54.5729817345543]
MOLEは、アラビア語以外の言語のデータセットをカバーする科学論文からメタデータ属性を自動的に抽出するフレームワークである。本手法では,複数の入力形式にまたがって文書全体を処理し,一貫した出力に対する堅牢な検証機構を組み込む。
論文参考訳（メタデータ） (2025-05-26T10:31:26Z)
SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文参考訳（メタデータ） (2024-10-28T15:56:49Z)
MatViX: Multimodal Information Extraction from Visually Rich Articles [6.349779979863784]
材料科学では、研究論文から構造化情報を抽出することで、新しい素材の発見を加速することができる。 textscMatViXは、324ドルのフル長の調査記事と1688ドルの複雑な構造化ファイルからなるベンチマークです。これらのファイルは、テキスト、テーブル、フィギュアからフル長の文書から抽出され、MIEにとって包括的な課題となる。
論文参考訳（メタデータ） (2024-10-27T16:13:58Z)
Integrating Planning into Single-Turn Long-Form Text Generation [66.08871753377055]
長文コンテンツを生成するための計画案を提案する。私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。実験では,LLMを補助タスクで微調整し,高品質な文書を生成する,異なる領域からの2つのデータセットを実証した。
論文参考訳（メタデータ） (2024-10-08T17:02:40Z)
Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文参考訳（メタデータ） (2024-10-02T20:48:28Z)
CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation [51.2289822267563]
本稿では,実行すべきタスクを実演する少数のユーザ記述型少数ショットを前提として,合成データセットを生成する手法を提案する。我々は, CRAFTが生物, 医学, 常識質問応答(QA)の4つのタスクに対して, 大規模タスク特化学習データセットを効率的に生成できることを実証した。実験の結果, CRAFT を用いたモデルでは, 一般 LLM をQA タスクで上回ったり, 一致させたりしていることがわかった。
論文参考訳（メタデータ） (2024-09-03T17:54:40Z)
Modeling citation worthiness by using attention-based bidirectional long short-term memory networks and interpretable models [0.0]
本稿では,注目機構と文脈情報を備えたBidirectional Long Short-Term Memory (BiLSTM) ネットワークを提案し,引用を必要とする文を検出する。我々は、PubMed Open Access Subsetに基づく新しい大規模データセット(PMOA-CITE)を作成します。
論文参考訳（メタデータ） (2024-05-20T17:45:36Z)
CiteBench: A benchmark for Scientific Citation Text Generation [69.37571393032026]
CiteBenchは引用テキスト生成のベンチマークである。 CiteBenchのコードはhttps://github.com/UKPLab/citebench.comで公開しています。
論文参考訳（メタデータ） (2022-12-19T16:10:56Z)
Minimally-Supervised Structure-Rich Text Categorization via Learning on Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文参考訳（メタデータ） (2021-02-23T04:14:34Z)
Method and Dataset Entity Mining in Scientific Literature: A CNN + Bi-LSTM Model with Self-attention [21.93889297841459]
MDERと呼ばれる新しいエンティティ認識モデルを提案し、科学的論文から効果的にメソッドとデータセットを抽出することができる。我々は,NLP,CV,データマイニング,AIの4つの研究分野の論文から構築したデータセットのモデルを評価する。
論文参考訳（メタデータ） (2020-10-26T13:38:43Z)
Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文参考訳（メタデータ） (2020-10-03T03:18:52Z)
Machine Identification of High Impact Research through Text and Image Analysis [0.4737991126491218]
本稿では,引用の可能性が低い論文から高い論文を自動的に分離するシステムを提案する。本システムでは,文書全体の外観を推測する視覚的分類器と,コンテンツインフォームド決定のためのテキスト分類器の両方を用いる。
論文参考訳（メタデータ） (2020-05-20T19:12:24Z)
A Large-Scale Multi-Document Summarization Dataset from the Wikipedia Current Events Portal [10.553314461761968]
MDS(Multi-document summarization)は、大規模な文書コレクションの内容を短い要約に圧縮することを目的としている。この研究は、文書クラスタの総数と個々のクラスタのサイズの両方で大きいMDS用の新しいデータセットを示す。
論文参考訳（メタデータ） (2020-05-20T14:33:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。