論文の概要: Semi-automatic staging area for high-quality structured data extraction
from scientific literature
- arxiv url: http://arxiv.org/abs/2309.10923v2
- Date: Thu, 16 Nov 2023 07:23:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 20:34:24.680474
- Title: Semi-automatic staging area for high-quality structured data extraction
from scientific literature
- Title(参考訳): 科学文献からの高品質構造化データ抽出のための半自動ステージング領域
- Authors: Luca Foppiano, Tomoya Mato, Kensei Terashima, Pedro Ortiz Suarez, Taku
Tou, Chikako Sakai, Wei-Sheng Wang, Toshiyuki Amagasa, Yoshihiko Takano,
Masashi Ishii
- Abstract要約: 「我々のインターフェースは従来の手作業の修正に比べて精度の向上とリコールによってキュレーションの質を著しく向上させる。」
私たちの半自動的なアプローチは、学術文書のテキストデータマイニングによる信頼性の高いデータベースを実現するためのソリューションを提供するでしょう。
- 参考スコア(独自算出の注目度): 2.159250310404821
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a semi-automatic staging area for efficiently building an accurate
database of experimental physical properties of superconductors from
literature, called SuperCon2, to enrich the existing manually-built
superconductor database SuperCon. Here we report our curation interface
(SuperCon2 Interface) and a workflow managing the state transitions of each
examined record, to validate the dataset of superconductors from PDF documents
collected using Grobid-superconductors in a previous work. This curation
workflow allows both automatic and manual operations, the former contains
``anomaly detection'' that scans new data identifying outliers, and a
``training data collector'' mechanism that collects training data examples
based on manual corrections. Such training data collection policy is effective
in improving the machine-learning models with a reduced number of examples. For
manual operations, the interface (SuperCon2 interface) is developed to increase
efficiency during manual correction by providing a smart interface and an
enhanced PDF document viewer. We show that our interface significantly improves
the curation quality by boosting precision and recall as compared with the
traditional ``manual correction''. Our semi-automatic approach would provide a
solution for achieving a reliable database with text-data mining of scientific
documents.
- Abstract(参考訳): そこで本稿では,SuperCon2と呼ばれる文献から,超伝導体の物理特性の正確なデータベースを構築するための半自動ステージング領域を提案する。
本稿では,グロビドスーパーコンダクタを用いて収集したpdf文書から超伝導体のデータセットを検証するため,キュレーションインタフェース(supercon2インターフェース)と各レコードの状態遷移を管理するワークフローについて報告する。
このキュレーションワークフローは、自動操作と手動操作の両方を可能にし、前者は、外れ値を特定する新しいデータをスキャンする `'anomaly detection'' と、手動修正に基づいてトレーニングデータ例を収集する ``training Data collector'' メカニズムを含んでいる。
このようなトレーニングデータ収集ポリシーは、サンプル数を減らして機械学習モデルを改善するのに有効である。
手動操作では、スマートインターフェースと拡張PDFドキュメントビューアを提供することで、手動修正時の効率を高めるためにインタフェース(SuperCon2インタフェース)が開発されている。
従来の ‘`manual correction'' と比較して精度を高めてリコールすることで,インタフェースのキュレーション品質が大幅に向上することを示す。
半自動的なアプローチは、科学文書のテキストデータマイニングによる信頼性の高いデータベースを実現するためのソリューションを提供するでしょう。
関連論文リスト
- DocMamba: Efficient Document Pre-training with State Space Model [56.84200017560988]
本稿では,状態空間モデルに基づく新しいフレームワークDocMambaを紹介する。
グローバルなモデリング能力を保ちながら、計算複雑性を線形に減らすように設計されている。
HRDocの実験では、DocMambaの長さ外挿の可能性が確認された。
論文 参考訳(メタデータ) (2024-09-18T11:34:28Z) - TrajSSL: Trajectory-Enhanced Semi-Supervised 3D Object Detection [59.498894868956306]
Pseudo-labeling approach to semi-supervised learning は教師-学生の枠組みを採用する。
我々は、事前学習した動き予測モデルを活用し、擬似ラベル付きデータに基づいて物体軌跡を生成する。
提案手法は2つの異なる方法で擬似ラベル品質を向上する。
論文 参考訳(メタデータ) (2024-09-17T05:35:00Z) - An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。
本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。
提案されたフレームワークは使いやすく、柔軟です。
論文 参考訳(メタデータ) (2024-02-26T07:22:51Z) - AutoCure: Automated Tabular Data Curation Technique for ML Pipelines [0.0]
本稿では,新鮮で構成のないデータキュレーションパイプラインであるAutoCureを紹介する。
従来のデータキュレーション方法とは異なり、AutoCureはクリーンなデータ率の密度を合成的に強化する。
実際にAutoCureは、オープンソースのツールと統合して、機械学習の民主化を促進することができる。
論文 参考訳(メタデータ) (2023-04-26T15:51:47Z) - Teacher Guided Training: An Efficient Framework for Knowledge Transfer [86.6784627427194]
高品質なコンパクトモデルを訓練するための教師誘導訓練(TGT)フレームワークを提案する。
TGTは、教師が基礎となるデータドメインの優れた表現を取得したという事実を利用する。
TGTは複数の画像分類ベンチマークやテキスト分類や検索タスクの精度を向上させることができる。
論文 参考訳(メタデータ) (2022-08-14T10:33:58Z) - Goldilocks: Just-Right Tuning of BERT for Technology-Assisted Review [14.689883695115519]
technology-assisted review (tar) は、ハイリコール検索タスクにおける文書レビューのための反復的なアクティブラーニングである。
教師付きチューニングを備えたトランスフォーマーベースモデルは,多くのテキスト分類タスクにおいて有効性を向上させることが確認された。
アクティブな学習を始める前にタスクコレクションを微調整する正当性言語モデルが重要であることを示す。
論文 参考訳(メタデータ) (2021-05-03T17:41:18Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - EHSOD: CAM-Guided End-to-end Hybrid-Supervised Object Detection with
Cascade Refinement [53.69674636044927]
本稿では,エンド・ツー・エンドのハイブリッド型オブジェクト検出システムであるEHSODについて述べる。
完全なアノテートと弱いアノテートの両方で、ワンショットでトレーニングすることができる。
完全なアノテートされたデータの30%しか持たない複数のオブジェクト検出ベンチマークで、同等の結果が得られる。
論文 参考訳(メタデータ) (2020-02-18T08:04:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。