論文の概要: Semi-automatic staging area for high-quality structured data extraction
from scientific literature
- arxiv url: http://arxiv.org/abs/2309.10923v1
- Date: Tue, 19 Sep 2023 20:53:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-21 13:26:42.924968
- Title: Semi-automatic staging area for high-quality structured data extraction
from scientific literature
- Title(参考訳): 科学文献からの高品質構造化データ抽出のための半自動ステージング領域
- Authors: Luca Foppiano, Tomoya Mato, Kensei Terashima, Pedro Ortiz Suarez, Taku
Tou, Chikako Sakai, Wei-Sheng Wang, Toshiyuki Amagasa, Yoshihiko Takano,
Masashi Ishii
- Abstract要約: 抽出したデータベース上で,自動処理と手動処理を組み合わせたワークフローによって駆動される半自動ステージング領域を提案する。
ユーザーは、元のPDF文書のデータ検証を簡単にするためにカスタマイズされたユーザーインターフェイスを通じて、任意のエラーを手動で修正できる。
レコードが修正されると、その生データは収集され、トレーニングデータとして機械学習モデルを改善するために使用される。
- 参考スコア(独自算出の注目度): 2.159250310404821
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we propose a staging area for ingesting new superconductors'
experimental data in SuperCon that is machine-collected from scientific
articles. Our objective is to enhance the efficiency of updating SuperCon while
maintaining or enhancing the data quality. We present a semi-automatic staging
area driven by a workflow combining automatic and manual processes on the
extracted database. An anomaly detection automatic process aims to pre-screen
the collected data. Users can then manually correct any errors through a user
interface tailored to simplify the data verification on the original PDF
documents. Additionally, when a record is corrected, its raw data is collected
and utilised to improve machine learning models as training data. Evaluation
experiments demonstrate that our staging area significantly improves curation
quality. We compare the interface with the traditional manual approach of
reading PDF documents and recording information in an Excel document. Using the
interface boosts the precision and recall by 6% and 50%, respectively to an
average increase of 40% in F1-score.
- Abstract(参考訳): 本研究では,新しい超伝導体の実験データをスーパーコンに取り込み,科学論文から機械的に収集するステージング領域を提案する。
我々の目標は、データ品質を維持したり、向上させたりしながら、SuperConの更新効率を向上させることです。
抽出したデータベース上で,自動処理と手動処理を組み合わせたワークフローによって駆動される半自動ステージング領域を提案する。
異常検出自動プロセスは、収集したデータを事前スクリーニングすることを目的としている。
ユーザーは、元のPDF文書のデータ検証を簡単にするためにカスタマイズされたユーザーインターフェイスを通じて、手動でエラーを修正することができる。
さらに、レコードが修正されると、その生データは収集され、トレーニングデータとして機械学習モデルを改善するために利用される。
評価実験により、ステージング領域はキュレーション品質を著しく改善することが示された。
このインターフェースを従来のpdf文書の読み出しとexcel文書への情報記録という手作業によるアプローチと比較する。
インターフェースを使用することで、精度が6%、リコールが50%向上し、f1-scoreでは平均40%向上する。
関連論文リスト
- DocMamba: Efficient Document Pre-training with State Space Model [56.84200017560988]
本稿では,状態空間モデルに基づく新しいフレームワークDocMambaを紹介する。
グローバルなモデリング能力を保ちながら、計算複雑性を線形に減らすように設計されている。
HRDocの実験では、DocMambaの長さ外挿の可能性が確認された。
論文 参考訳(メタデータ) (2024-09-18T11:34:28Z) - TrajSSL: Trajectory-Enhanced Semi-Supervised 3D Object Detection [59.498894868956306]
Pseudo-labeling approach to semi-supervised learning は教師-学生の枠組みを採用する。
我々は、事前学習した動き予測モデルを活用し、擬似ラベル付きデータに基づいて物体軌跡を生成する。
提案手法は2つの異なる方法で擬似ラベル品質を向上する。
論文 参考訳(メタデータ) (2024-09-17T05:35:00Z) - An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。
本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。
提案されたフレームワークは使いやすく、柔軟です。
論文 参考訳(メタデータ) (2024-02-26T07:22:51Z) - AutoCure: Automated Tabular Data Curation Technique for ML Pipelines [0.0]
本稿では,新鮮で構成のないデータキュレーションパイプラインであるAutoCureを紹介する。
従来のデータキュレーション方法とは異なり、AutoCureはクリーンなデータ率の密度を合成的に強化する。
実際にAutoCureは、オープンソースのツールと統合して、機械学習の民主化を促進することができる。
論文 参考訳(メタデータ) (2023-04-26T15:51:47Z) - Teacher Guided Training: An Efficient Framework for Knowledge Transfer [86.6784627427194]
高品質なコンパクトモデルを訓練するための教師誘導訓練(TGT)フレームワークを提案する。
TGTは、教師が基礎となるデータドメインの優れた表現を取得したという事実を利用する。
TGTは複数の画像分類ベンチマークやテキスト分類や検索タスクの精度を向上させることができる。
論文 参考訳(メタデータ) (2022-08-14T10:33:58Z) - Goldilocks: Just-Right Tuning of BERT for Technology-Assisted Review [14.689883695115519]
technology-assisted review (tar) は、ハイリコール検索タスクにおける文書レビューのための反復的なアクティブラーニングである。
教師付きチューニングを備えたトランスフォーマーベースモデルは,多くのテキスト分類タスクにおいて有効性を向上させることが確認された。
アクティブな学習を始める前にタスクコレクションを微調整する正当性言語モデルが重要であることを示す。
論文 参考訳(メタデータ) (2021-05-03T17:41:18Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - EHSOD: CAM-Guided End-to-end Hybrid-Supervised Object Detection with
Cascade Refinement [53.69674636044927]
本稿では,エンド・ツー・エンドのハイブリッド型オブジェクト検出システムであるEHSODについて述べる。
完全なアノテートと弱いアノテートの両方で、ワンショットでトレーニングすることができる。
完全なアノテートされたデータの30%しか持たない複数のオブジェクト検出ベンチマークで、同等の結果が得られる。
論文 参考訳(メタデータ) (2020-02-18T08:04:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。