論文の概要: Dataset Mention Extraction in Scientific Articles Using Bi-LSTM-CRF Model
- arxiv url: http://arxiv.org/abs/2405.13135v1
- Date: Tue, 21 May 2024 18:12:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 04:12:17.789722
- Title: Dataset Mention Extraction in Scientific Articles Using Bi-LSTM-CRF Model
- Title(参考訳): Bi-LSTM-CRFモデルを用いた科学論文のデータセット操作抽出
- Authors: Tong Zeng, Daniel Acuna,
- Abstract要約: データレポジトリや資金調達機関による最近の取り組みにもかかわらず、データセットの引用は一般的でも標準的でもないことが示されています。
この問題の潜在的な解決策は、科学論文からデータセットの言及を自動的に抽出することである。
本研究では,Bi-LSTM-CRFアーキテクチャに基づくニューラルネットワークを用いて,そのような抽出を実現することを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Datasets are critical for scientific research, playing an important role in replication, reproducibility, and efficiency. Researchers have recently shown that datasets are becoming more important for science to function properly, even serving as artifacts of study themselves. However, citing datasets is not a common or standard practice in spite of recent efforts by data repositories and funding agencies. This greatly affects our ability to track their usage and importance. A potential solution to this problem is to automatically extract dataset mentions from scientific articles. In this work, we propose to achieve such extraction by using a neural network based on a Bi-LSTM-CRF architecture. Our method achieves F1 = 0.885 in social science articles released as part of the Rich Context Dataset. We discuss the limitations of the current datasets and propose modifications to the model to be done in the future.
- Abstract(参考訳): データセットは科学的研究において重要であり、複製、再現性、効率において重要な役割を果たしている。
研究者たちは最近、データセットは科学が適切に機能することがより重要になり、研究の成果物としても機能していることを示した。
しかしながら、データセットの引用は、データリポジトリや資金調達機関による最近の取り組みにもかかわらず、一般的な、あるいは標準的なプラクティスではない。
これは、彼らの使用状況と重要性を追跡する能力に大きな影響を与えます。
この問題の潜在的な解決策は、科学論文からデータセットの言及を自動的に抽出することである。
本研究では,Bi-LSTM-CRFアーキテクチャに基づくニューラルネットワークを用いて,そのような抽出を実現することを提案する。
本手法は,Rich Context Datasetの一部として公開された社会科学論文においてF1 = 0.885を達成する。
我々は,現在のデータセットの限界について議論し,将来行うべきモデルの変更を提案する。
関連論文リスト
- Data-Constrained Synthesis of Training Data for De-Identification [0.0]
臨床領域に適応する大言語モデル(LLM)について検討した。
我々は,個人識別可能な情報にタグを付加した人工的な臨床テキストを生成する。
合成コーパスは合成NERモデルの訓練に使用される。
論文 参考訳(メタデータ) (2025-02-20T16:09:27Z) - Large Language Models and Synthetic Data for Monitoring Dataset Mentions in Research Papers [0.0]
本稿では,研究領域間のデータセット参照検出を自動化する機械学習フレームワークを提案する。
我々は,研究論文からゼロショット抽出,品質評価のためのLCM-as-a-Judge,および改良のための推論剤を用いて,弱教師付き合成データセットを生成する。
推論では、ModernBERTベースの分類器がデータセットの参照を効率的にフィルタリングし、高いリコールを維持しながら計算オーバーヘッドを低減する。
論文 参考訳(メタデータ) (2025-02-14T16:16:02Z) - Synthetic ECG Generation for Data Augmentation and Transfer Learning in Arrhythmia Classification [1.7614607439356635]
本稿では,Deep Learningと異なる生成モデルを用いて生成した合成データの有用性について検討する。
本研究では, 合成事前学習モデルを微調整し, 実データの比率を増大させることにより, 伝達学習の効果について検討する。
論文 参考訳(メタデータ) (2024-11-27T15:46:34Z) - SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - Why Tabular Foundation Models Should Be a Research Priority [65.75744962286538]
タブラルデータは、多くの分野において支配的なモダリティであるが、研究の注意がほとんど与えられず、スケールとパワーの面ではかなり遅れている。
私たちは現在、表形式の基礎モデル、あるいはLTM(Large Tabular Model)と呼ばれるものの開発を始める時が来たと信じています。
論文 参考訳(メタデータ) (2024-05-02T10:05:16Z) - DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM Workflows [72.40917624485822]
我々は、研究者が強力な大規模言語モデルを実装することができるオープンソースのPythonライブラリであるDataDreamerを紹介した。
DataDreamerはまた、オープンサイエンスを促進するために提案するベストプラクティスに研究者が従うのを助ける。
論文 参考訳(メタデータ) (2024-02-16T00:10:26Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Good Data, Large Data, or No Data? Comparing Three Approaches in
Developing Research Aspect Classifiers for Biomedical Papers [19.1408856831043]
クラウドアノテートされたCODA-19研究アスペクト分類タスクにおいて,異なるデータセットがモデル性能に与える影響について検討した。
その結果,PubMed 200K RCTデータセットではCODA-19タスクの性能が向上しないことがわかった。
論文 参考訳(メタデータ) (2023-06-07T22:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。