論文の概要: Weakly supervised information extraction from inscrutable handwritten
document images
- arxiv url: http://arxiv.org/abs/2306.06823v1
- Date: Mon, 12 Jun 2023 02:22:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 16:16:31.515297
- Title: Weakly supervised information extraction from inscrutable handwritten
document images
- Title(参考訳): 目立たない文書画像からの弱教師付き情報抽出
- Authors: Sujoy Paul and Gagan Madan and Akankshya Mishra and Narayan Hegde and
Pradeep Kumar and Gaurav Aggarwal
- Abstract要約: 弱いラベル付きデータのみを用いて手書き処方薬から医薬名を抽出する複雑な問題に焦点をあてる。
我々はまず、興味のある領域、すなわち医学的ラインを単に弱いラベルから識別することで、この問題を解決する。
市販の最先端手法と比較して, 処方薬から抽出した医薬品名では, 2.5倍の精度が得られた。
- 参考スコア(独自算出の注目度): 14.260994345711385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art information extraction methods are limited by OCR errors.
They work well for printed text in form-like documents, but unstructured,
handwritten documents still remain a challenge. Adapting existing models to
domain-specific training data is quite expensive, because of two factors, 1)
limited availability of the domain-specific documents (such as handwritten
prescriptions, lab notes, etc.), and 2) annotations become even more
challenging as one needs domain-specific knowledge to decode inscrutable
handwritten document images. In this work, we focus on the complex problem of
extracting medicine names from handwritten prescriptions using only weakly
labeled data. The data consists of images along with the list of medicine names
in it, but not their location in the image. We solve the problem by first
identifying the regions of interest, i.e., medicine lines from just weak labels
and then injecting a domain-specific medicine language model learned using only
synthetically generated data. Compared to off-the-shelf state-of-the-art
methods, our approach performs >2.5x better in medicine names extraction from
prescriptions.
- Abstract(参考訳): 最先端情報抽出法はOCRエラーによって制限される。
印刷されたテキストはフォームライクな文書でうまく機能するが、構造化されていない手書きの文書は依然として課題である。
既存のモデルをドメイン固有のトレーニングデータに適応させるのは非常に費用がかかる。
1)ドメイン固有の文書(手書き処方、検査ノート等)の入手が限定されていること
2) 手書きの文書イメージをデコードするにはドメイン固有の知識が必要であるため、アノテーションはさらに困難になる。
本研究では,弱いラベル付きデータのみを用いて手書き処方薬から医薬名を抽出する複雑な問題に焦点をあてる。
データは画像と、その中の薬の名前のリストから成り立っているが、画像の中にその場所はない。
まず、弱いラベルから興味のある領域、すなわち医学の線を識別し、合成されたデータのみを用いて学習したドメイン特化医学言語モデルを注入することで解決する。
市販の最先端の方法と比較して,処方薬からの薬名抽出において,本手法は2.5倍以上の性能を発揮する。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - DocAligner: Annotating Real-world Photographic Document Images by Simply
Taking Pictures [24.76258692552673]
そこで本稿では,手作業によるアノテーション処理を簡易に表現するDocAlignerを提案する。
写真用文書画像とその清潔な画像との密接な対応を確立することで、これを実現する。
ドキュメントイメージの特徴を考えると、DocAlignerはいくつかの革新的な特徴を取り入れている。
論文 参考訳(メタデータ) (2023-06-09T08:29:15Z) - Entry Separation using a Mixed Visual and Textual Language Model:
Application to 19th century French Trade Directories [18.323615434182553]
重要な課題は、ターゲットデータベースの基本的なテキスト領域を構成するものを正確に分割することである。
19世紀のフランス貿易ディレクトリーに効率性を示す新しい実用的アプローチを提案する。
NER目的に使用される言語モデルのトークンストリームに、特別なビジュアルトークン、例えばインデントやブレークといったコーディングを注入することで、テキストと視覚の両方の知識を同時に活用することができる。
論文 参考訳(メタデータ) (2023-02-17T15:30:44Z) - Unifying Vision, Text, and Layout for Universal Document Processing [105.36490575974028]
本稿では,テキスト,画像,レイアウトのモダリティを文書理解と生成を含むさまざまなタスク形式とともに統合するドキュメントAIモデルを提案する。
我々の手法は、財務報告、学術論文、ウェブサイトなど、さまざまなデータ領域にまたがって、文書理解やQAといった9つのドキュメントAIタスクの最先端を定めている。
論文 参考訳(メタデータ) (2022-12-05T22:14:49Z) - I2DFormer: Learning Image to Document Attention for Zero-Shot Image
Classification [123.90912800376039]
オンラインテキスト文書(例えばウィキペディア)には、オブジェクトクラスに関する豊富な視覚的記述が含まれている。
画像や文書のエンコードを共同で学習するトランスフォーマーベースのZSLフレームワークであるI2DFormerを提案する。
提案手法は,画像領域に文書語を接地可能な高解釈可能な結果をもたらす。
論文 参考訳(メタデータ) (2022-09-21T12:18:31Z) - Open Set Classification of Untranscribed Handwritten Documents [56.0167902098419]
重要な写本の膨大な量のデジタルページイメージが世界中のアーカイブに保存されている。
ドキュメントのクラスや型付け'はおそらくメタデータに含まれる最も重要なタグです。
技術的問題は文書の自動分類の1つであり、それぞれが書き起こされていない手書きのテキスト画像からなる。
論文 参考訳(メタデータ) (2022-06-20T20:43:50Z) - MIPR:Automatic Annotation of Medical Images with Pixel Rearrangement [7.39560318487728]
医用画像画素再構成(MIPR)という,別の角度からの注釈付きデータの欠如を解決する新しい手法を提案する。
MIPRは画像編集と擬似ラベル技術を組み合わせてラベル付きデータを取得する。
ISIC18での実験では,本手法による分節処理が医師のアノテーションと同等かそれ以上の効果があることが示されている。
論文 参考訳(メタデータ) (2022-04-22T05:54:14Z) - Disentangled Unsupervised Image Translation via Restricted Information
Flow [61.44666983942965]
多くの最先端のメソッドは、所望の共有vs固有の分割をアーキテクチャにハードコードする。
帰納的アーキテクチャバイアスに依存しない新しい手法を提案する。
提案手法は,2つの合成データセットと1つの自然なデータセットに対して一貫した高い操作精度を実現する。
論文 参考訳(メタデータ) (2021-11-26T00:27:54Z) - One-shot Text Field Labeling using Attention and Belief Propagation for
Structure Information Extraction [28.687815600404264]
ワンショットテキストフィールドラベリングのための新しいエンドツーエンドトレーニング可能なアプローチを提案する。
これらの問題を緩和するため、我々はワンショットテキストフィールドラベリングのための新しいエンドツーエンドのトレーニング可能なアプローチを提案した。
実世界のワンショットフィールドラベリングデータセットを収集し,注釈を付けた。
論文 参考訳(メタデータ) (2020-09-09T08:11:34Z) - Robust Handwriting Recognition with Limited and Noisy Data [7.617456558732551]
私たちはメンテナンスログから手書き文字を学習することに重点を置いています。
この問題を単語分割と単語認識の2段階に分割し,データ拡張技術を用いて両段階を訓練する。
本システムは誤り率を低くし,ノイズや難解な文書を扱うのに適している。
論文 参考訳(メタデータ) (2020-08-18T20:33:23Z) - Collaborative Unsupervised Domain Adaptation for Medical Image Diagnosis [102.40869566439514]
我々は、Unsupervised Domain Adaptation (UDA)を通じて、対象タスクにおける学習を支援するために、関連ドメインからの豊富なラベル付きデータを活用しようとしている。
クリーンなラベル付きデータやサンプルを仮定するほとんどのUDAメソッドが等しく転送可能であるのとは異なり、協調的教師なしドメイン適応アルゴリズムを革新的に提案する。
提案手法の一般化性能を理論的に解析し,医用画像と一般画像の両方で実験的に評価する。
論文 参考訳(メタデータ) (2020-07-05T11:49:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。