論文の概要: Including Keyword Position in Image-based Models for Act Segmentation of
Historical Registers
- arxiv url: http://arxiv.org/abs/2109.08477v1
- Date: Fri, 17 Sep 2021 11:38:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-20 14:38:24.080634
- Title: Including Keyword Position in Image-based Models for Act Segmentation of
Historical Registers
- Title(参考訳): 歴史的登録の行為分割のための画像ベースモデルにおけるキーワード位置を含む
- Authors: M\'elodie Boillet, Martin Maarand, Thierry Paquet and Christopher
Kermorvant
- Abstract要約: 我々は、歴史的レジスターを、アクトのような構造的で意味のある単位に分割するために、視覚情報とテキスト情報の両方を使用することに焦点をあてる。
ある行為は、人口統計情報(洗礼、婚姻または死)や王室の決定(寄付または恩赦)などの貴重な知識を含む文書記録である。
- 参考スコア(独自算出の注目度): 2.064923532131528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The segmentation of complex images into semantic regions has seen a growing
interest these last years with the advent of Deep Learning. Until recently,
most existing methods for Historical Document Analysis focused on the visual
appearance of documents, ignoring the rich information that textual content can
offer. However, the segmentation of complex documents into semantic regions is
sometimes impossible relying only on visual features and recent models embed
both visual and textual information. In this paper, we focus on the use of both
visual and textual information for segmenting historical registers into
structured and meaningful units such as acts. An act is a text recording
containing valuable knowledge such as demographic information (baptism,
marriage or death) or royal decisions (donation or pardon). We propose a simple
pipeline to enrich document images with the position of text lines containing
key-phrases and show that running a standard image-based layout analysis system
on these images can lead to significant gains. Our experiments show that the
detection of acts increases from 38 % of mAP to 74 % when adding textual
information, in real use-case conditions where text lines positions and content
are extracted with an automatic recognition system.
- Abstract(参考訳): 複雑な画像のセマンティック領域へのセグメンテーションは、Deep Learningの出現とともにここ数年、関心が高まっている。
最近まで、文書の視覚的外観に焦点をあて、テキストコンテンツが提供する豊富な情報を無視してきた歴史文書分析の方法がほとんどであった。
しかし、複雑な文書を意味領域に分割することは、視覚的な特徴と、最近のモデルが視覚情報とテキスト情報の両方を埋め込むだけでは不可能である。
本稿では,歴史的レジスタを行動などの構造的・意味的な単位に分割するための視覚的・テキスト的情報の利用に焦点を当てる。
行為は、人口統計情報(洗礼、結婚または死)や王室の決定(寄付または恩赦)などの貴重な知識を含む文書記録である。
本稿では,キーフレーズを含むテキスト行の位置を付加した文書画像のリッチ化のための簡単なパイプラインを提案し,これらの画像上で標準的な画像ベースレイアウト解析システムを実行することで,大幅な向上が期待できることを示す。
本研究では,テキスト列の位置や内容が自動認識システムで抽出された実使用条件において,テキスト情報付加時の行動検出率が38%から74%に増加することを示す。
関連論文リスト
- Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Segmenting Messy Text: Detecting Boundaries in Text Derived from
Historical Newspaper Images [0.0]
新聞の結婚発表リストを1つの発表単位に分けるという,困難なテキストセグメンテーションの課題について考察する。
多くの場合、情報は文に構造化されず、隣接するセグメントは互いに位相的に区別されない。
本稿では,このようなテキストをセグメント化するための新しいディープラーニングモデルを提案する。
論文 参考訳(メタデータ) (2023-12-20T05:17:06Z) - Towards Improving Document Understanding: An Exploration on
Text-Grounding via MLLMs [96.54224331778195]
本稿では,画像中のテキストの空間的位置を識別し,MLLMを強化したテキストグラウンド文書理解モデルTGDocを提案する。
我々は,テキスト検出,認識,スポッティングなどの命令チューニングタスクを定式化し,視覚エンコーダと大言語モデルとの密接なアライメントを容易にする。
提案手法は,複数のテキストリッチベンチマークにまたがる最先端性能を実現し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-11-22T06:46:37Z) - Visual Analytics for Efficient Image Exploration and User-Guided Image
Captioning [35.47078178526536]
事前訓練された大規模言語画像モデルの最近の進歩は、視覚的理解の新しい時代を後押ししている。
本稿では,視覚分析の領域でよく知られた2つの問題に取り組み,(1)大規模画像データセットの効率的な探索と潜在的なデータバイアスの同定,(2)画像キャプションの評価と生成過程のステアリングを行う。
論文 参考訳(メタデータ) (2023-11-02T06:21:35Z) - Prompt me a Dataset: An investigation of text-image prompting for
historical image dataset creation using foundation models [0.9065034043031668]
基礎モデルを用いた歴史資料からの画像抽出のためのパイプラインを提案する。
我々は,テキスト画像のプロンプトと,それらが複雑度の異なる人文科学データセットに与える影響を評価する。
論文 参考訳(メタデータ) (2023-09-04T15:37:03Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Multi-Modal Reasoning Graph for Scene-Text Based Fine-Grained Image
Classification and Retrieval [8.317191999275536]
本稿では,視覚的・テキスト的手がかりの形でマルチモーダルコンテンツを活用することで,微細な画像分類と検索の課題に取り組むことに焦点を当てる。
画像中の有意なオブジェクトとテキスト間の共通意味空間を学習することにより、マルチモーダル推論を行い、関係強化された特徴を得るためにグラフ畳み込みネットワークを用いる。
論文 参考訳(メタデータ) (2020-09-21T12:31:42Z) - TRIE: End-to-End Text Reading and Information Extraction for Document
Understanding [56.1416883796342]
本稿では,統合されたエンドツーエンドのテキスト読解と情報抽出ネットワークを提案する。
テキスト読解のマルチモーダル視覚的特徴とテキスト的特徴は、情報抽出のために融合される。
提案手法は, 精度と効率の両面において, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-05-27T01:47:26Z) - TextCaps: a Dataset for Image Captioning with Reading Comprehension [56.89608505010651]
テキストは人間環境において一様であり、環境を理解するためにしばしば重要である。
画像のコンテキストにおけるテキストの理解方法を研究するために,新しいデータセットであるTextCapsを,28k画像用の145kキャプションで収集した。
我々のデータセットは、テキストを認識し、それをその視覚的コンテキストに関連付け、テキストのどの部分をコピーするか、言い換えるかを決定するモデルに挑戦する。
論文 参考訳(メタデータ) (2020-03-24T02:38:35Z) - Combining Visual and Textual Features for Semantic Segmentation of
Historical Newspapers [2.5899040911480187]
本稿では,歴史新聞のセマンティックセマンティックセグメンテーションのためのマルチモーダルアプローチを提案する。
ダイアクロニックなスイスとルクセンブルクの新聞の実験に基づいて、視覚的特徴とテキスト的特徴の予測力について検討する。
その結果、強力な視覚ベースラインと比較して、マルチモーダルモデルの一貫した改善が見られた。
論文 参考訳(メタデータ) (2020-02-14T17:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。