論文の概要: ASET: Ad-hoc Structured Exploration of Text Collections [Extended
Abstract]
- arxiv url: http://arxiv.org/abs/2203.04663v1
- Date: Wed, 9 Mar 2022 12:02:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-11 01:47:41.671179
- Title: ASET: Ad-hoc Structured Exploration of Text Collections [Extended
Abstract]
- Title(参考訳): ASET: テキストコレクションのアドホックな構造化探索 [Extended Abstract]
- Authors: Benjamin H\"attasch, Jan-Micha Bodensohn, Carsten Binnig
- Abstract要約: ASETは、ユーザーがアドホックな方法でテキストコレクションの構造化された探索を行うことを可能にする。
実世界のテキストコレクションから構造化されたデータを,事前の抽出パイプラインを設計することなく,高品質に抽出できることを示す。
- 参考スコア(独自算出の注目度): 12.061875724791648
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a new system called ASET that allows users to
perform structured explorations of text collections in an ad-hoc manner. The
main idea of ASET is to use a new two-phase approach that first extracts a
superset of information nuggets from the texts using existing extractors such
as named entity recognizers and then matches the extractions to a structured
table definition as requested by the user based on embeddings. In our
evaluation, we show that ASET is thus able to extract structured data from
real-world text collections in high quality without the need to design
extraction pipelines upfront.
- Abstract(参考訳): 本稿では,テキストコレクションの構造化探索をアドホックに行うことが可能な aset というシステムを提案する。
ASETの主な考え方は、まず名前付きエンティティ認識器などの既存の抽出器を用いてテキストから情報ナゲットのスーパーセットを抽出し、次に埋め込みに基づいてユーザから要求された構造化テーブル定義にマッチする2段階のアプローチである。
評価において,ASETは,事前の抽出パイプラインを設計することなく,実世界のテキストコレクションから構造化されたデータを高品質に抽出できることを示す。
関連論文リスト
- FabricQA-Extractor: A Question Answering System to Extract Information from Documents using Natural Language Questions [4.961045761391367]
可読性モデルを読み取ると、短いテキストを渡せば自然言語で表される質問に答える。
本稿では,リレーショナル構造に関する知識を活用して抽出品質を向上させるリレーショナルコヒーレンス(Relation Coherence)というモデルを提案する。
リレーショナルコヒーレンスによって抽出性能が向上し,大規模データセット上でFabricQA-Extractorが評価されることを示す。
論文 参考訳(メタデータ) (2024-08-17T15:16:54Z) - SumHiS: Extractive Summarization Exploiting Hidden Structure [4.445432761373431]
そこで本研究では,テキストの隠れクラスタリング構造を用いて要約タスクを抽出する手法を提案する。
CNN/DailyMailの実験結果から,本手法は抽出法と抽象法の両方よりも正確な要約を生成することが示された。
論文 参考訳(メタデータ) (2024-06-12T13:44:58Z) - Instruct and Extract: Instruction Tuning for On-Demand Information
Extraction [86.29491354355356]
On-Demand Information extractは、現実世界のユーザのパーソナライズされた要求を満たすことを目的としている。
InstructIEというベンチマークを、自動生成したトレーニングデータと、人手による注釈付きテストセットの両方を含む形で提示する。
InstructIE 上に構築した On-Demand Information Extractor, ODIE をさらに発展させる。
論文 参考訳(メタデータ) (2023-10-24T17:54:25Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Multi-Modal Association based Grouping for Form Structure Extraction [14.134131448981295]
形態構造抽出のための新しいマルチモーダル手法を提案する。
我々は、TextBlocks、Text Fields、Choice Fields、Choice Groupsなどの高階構造を抽出する。
提案手法は, それぞれ90.29%, 73.80%, 83.12%, 52.72%のリコールを達成している。
論文 参考訳(メタデータ) (2021-07-09T12:49:34Z) - DeepCPCFG: Deep Learning and Context Free Grammars for End-to-End
Information Extraction [0.0]
深層学習と条件確率的文脈自由文法(CPCFG)を組み合わせて,構造化情報抽出のためのエンドツーエンドシステムを構築する。
スキャンされた請求書から最新の結果を得るためにこのアプローチを適用します。
論文 参考訳(メタデータ) (2021-03-10T07:35:21Z) - DART: Open-Domain Structured Data Record to Text Generation [91.23798751437835]
82k以上のインスタンス(DART)を持つオープンドメイン構造化DAta Record to Text生成データセットであるDARTを提案する。
本稿では,テーブルヘッダとテーブルタイトル間の意味的依存関係を利用して,その構造を符号化するテーブルから意味的三重項を抽出する手法を提案する。
我々のデータセット構築フレームワークは、オープンドメイン意味解析と対話行動に基づく意味表現タスクからヘテロジニアスソースを効果的に統合する。
論文 参考訳(メタデータ) (2020-07-06T16:35:30Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z) - AutoSTR: Efficient Backbone Search for Scene Text Recognition [80.7290173000068]
テキストインスタンスの多様性とシーンの複雑さのため、シーンテキスト認識(STR)は非常に難しい。
テキスト認識性能を向上させるために,データ依存のバックボーンを検索するための自動STR(AutoSTR)を提案する。
実験によると、データ依存のバックボーンを検索することで、AutoSTRは標準ベンチマークにおける最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2020-03-14T06:51:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。