論文の概要: Text2Struct: A Machine Learning Pipeline for Mining Structured Data from
Text
- arxiv url: http://arxiv.org/abs/2212.09044v2
- Date: Tue, 20 Dec 2022 21:49:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 15:39:11.658320
- Title: Text2Struct: A Machine Learning Pipeline for Mining Structured Data from
Text
- Title(参考訳): text2struct: テキストから構造化データをマイニングする機械学習パイプライン
- Authors: Chaochao Zhou and Bo Yang
- Abstract要約: 本稿では,エンドツーエンドの機械学習パイプラインであるText2Structを提案する。
テキストアノテーションスキーム、データ処理のトレーニング、機械学習の実装が含まれている。
データセットを拡張し、他の機械学習モデルを調べることで、パイプラインをさらに改善することが期待されている。
- 参考スコア(独自算出の注目度): 4.709764624933227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many analysis and prediction tasks require the extraction of structured data
from unstructured texts. To solve it, this paper presents an end-to-end machine
learning pipeline, Text2Struct, including a text annotation scheme, training
data processing, and machine learning implementation. We formulated the mining
problem as the extraction of metrics and units associated with numerals in the
text. The Text2Struct was evaluated on an annotated text dataset collected from
abstracts of medical publications regarding thrombectomy. In terms of
prediction performance, a dice coefficient of 0.82 was achieved on the test
dataset. By random sampling, most predicted relations between numerals and
entities were well matched to the ground-truth annotations. These results show
that the Text2Struct is viable for the mining of structured data from text
without special templates or patterns. It is anticipated to further improve the
pipeline by expanding the dataset and investigating other machine learning
models. A code demonstration can be found at:
https://github.com/zcc861007/CourseProject
- Abstract(参考訳): 多くの解析および予測タスクは、構造化されていないテキストから構造化データの抽出を必要とする。
そこで本研究では,テキストアノテーションスキーム,トレーニングデータ処理,機械学習実装などを含む,エンドツーエンドの機械学習パイプラインであるText2Structを提案する。
テキスト中の数字に関連するメトリクスと単位の抽出としてマイニング問題を定式化した。
text2structは血栓切除に関する医学雑誌の要約から収集した注釈付きテキストデータセット上で評価された。
予測性能の面では,テストデータセットで0.82のサイス係数が達成された。
ランダムサンプリングにより、数値と実体のほとんどの予測された関係は、基底真実アノテーションとよく一致した。
これらの結果は、text2structが特別なテンプレートやパターンを使わずにテキストから構造化データをマイニングできることを示している。
データセットを拡張し、他の機械学習モデルを調べることで、パイプラインをさらに改善することが期待されている。
コードデモは、https://github.com/zcc861007/CourseProjectで見ることができる。
関連論文リスト
- Text2Data: Low-Resource Data Generation with Textual Control [104.38011760992637]
自然言語は、人間が機械とシームレスに対話するための共通かつ直接的な制御信号として機能する。
ラベルのないデータを用いて教師なし拡散モデルを用いて基礎となるデータ分布を理解する新しいアプローチであるText2Dataを提案する。
制御性を確保し、破滅的な忘れを効果的に防止する、新しい制約最適化ベースの学習目標を通じて制御可能な微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - Unifying Structured Data as Graph for Data-to-Text Pre-Training [69.96195162337793]
Data-to-text (D2T) の生成は、構造化されたデータを自然言語テキストに変換することを目的としている。
データからテキストへの事前学習は、D2T生成の強化に強力であることが証明された。
構造強化トランスを設計し,D2T生成のための構造強化事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T12:23:49Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Faithful Low-Resource Data-to-Text Generation through Cycle Training [14.375070014155817]
近年,構造化データからテキストを生成する手法が大幅に進歩している。
サイクルトレーニングでは、互いに逆転する2つのモデルを使用する。
サイクルトレーニングが完全に教師付きアプローチとほぼ同等のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-05-24T06:44:42Z) - HiStruct+: Improving Extractive Text Summarization with Hierarchical
Structure Information [0.6443952406204634]
本稿では,階層構造情報を抽出要約モデルに明示的に記述,抽出,エンコード,注入する新しい手法を提案する。
3つのデータセット(CNN/DailyMail、PubMed、arXivなど)のさまざまな実験的な設定を使用して、HiStruct+モデルは、一括して強力なベースラインをパフォーマンスします。
論文 参考訳(メタデータ) (2022-03-17T21:49:26Z) - DataWords: Getting Contrarian with Text, Structured Data and
Explanations [0.0]
我々は、類似のデータ項目が同じ文にマッピングされるように、テキスト文、DataWordsで構造化されたデータを表現します。
これにより、テキストモデリングアルゴリズムのみを使用して、テキストと構造化データの混合をモデル化することができる。
論文 参考訳(メタデータ) (2021-11-09T19:52:13Z) - Automated News Summarization Using Transformers [4.932130498861987]
我々は,テキスト要約のためのトランスフォーマーアーキテクチャに基づく事前学習モデルについて,包括的に比較する。
分析と比較のために,要約や人為的な要約に使用できるテキストデータを含むBBCニュースデータセットを用いた。
論文 参考訳(メタデータ) (2021-04-23T04:22:33Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z) - Learning to Summarize Passages: Mining Passage-Summary Pairs from
Wikipedia Revision Histories [110.54963847339775]
ウィキペディアページのリビジョン履歴をマイニングすることで,パス・トゥ・サマリーデータセットを自動構築する手法を提案する。
特に、本手法では、ページに追加される本体の通路と導入文を同時にマイニングする。
構築されたデータセットは、100万以上のパス・サマー・ペアを含む。
論文 参考訳(メタデータ) (2020-04-06T12:11:50Z) - Selective Attention Encoders by Syntactic Graph Convolutional Networks
for Document Summarization [21.351111598564987]
本稿では,文書中の文から解析木を接続するグラフを提案し,文書の構文表現を学習するために重ねられたグラフ畳み込みネットワーク(GCN)を利用する。
提案したGCNによる選択的アテンションアプローチは,ベースラインよりも優れ,データセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-03-18T01:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。