論文の概要: Navigating the Mise-en-Page: Interpretive Machine Learning Approaches to
the Visual Layouts of Multi-Ethnic Periodicals
- arxiv url: http://arxiv.org/abs/2109.01732v1
- Date: Fri, 3 Sep 2021 21:10:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-08 10:40:58.832138
- Title: Navigating the Mise-en-Page: Interpretive Machine Learning Approaches to
the Visual Layouts of Multi-Ethnic Periodicals
- Title(参考訳): Mise-en-Pageをナビゲートする:多段階の視覚的レイアウトに対する解釈型機械学習アプローチ
- Authors: Benjamin Charles Germain Lee, Joshua Ortiz Baco, Sarah H. Salter, Jim
Casey
- Abstract要約: 本手法は,日刊誌のMARCデータと新聞ナビゲータ機械学習データセットを組み合わせて,新聞ページレイアウトの視覚的パターンを同定する。
高次元の視覚的類似性を解析することにより、編集者が論文のレイアウトを通してどのように話し、抗議したかをよりよく理解することを目指している。
- 参考スコア(独自算出の注目度): 0.19116784879310028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a computational method of analysis that draws from
machine learning, library science, and literary studies to map the visual
layouts of multi-ethnic newspapers from the late 19th and early 20th century
United States. This work departs from prior approaches to newspapers that focus
on individual pieces of textual and visual content. Our method combines
Chronicling America's MARC data and the Newspaper Navigator machine learning
dataset to identify the visual patterns of newspaper page layouts. By analyzing
high-dimensional visual similarity, we aim to better understand how editors
spoke and protested through the layout of their papers.
- Abstract(参考訳): 本稿では,19世紀後半から20世紀初頭にかけての多民族新聞の視覚的レイアウトを地図化するために,機械学習,図書館科学,文学から抽出した分析手法を提案する。
この作品は、個々のテキストコンテンツと視覚コンテンツに焦点を当てた新聞への以前のアプローチから逸脱している。
本手法は,アメリカのmarcデータと新聞ナビゲータ機械学習データセットを併用し,新聞ページレイアウトの視覚的パターンを識別する。
高次元の視覚的類似性を解析することにより、編集者が論文のレイアウトを通してどのように話し、抗議するかをよりよく理解することを目指している。
関連論文リスト
- Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - Entry Separation using a Mixed Visual and Textual Language Model:
Application to 19th century French Trade Directories [18.323615434182553]
重要な課題は、ターゲットデータベースの基本的なテキスト領域を構成するものを正確に分割することである。
19世紀のフランス貿易ディレクトリーに効率性を示す新しい実用的アプローチを提案する。
NER目的に使用される言語モデルのトークンストリームに、特別なビジュアルトークン、例えばインデントやブレークといったコーディングを注入することで、テキストと視覚の両方の知識を同時に活用することができる。
論文 参考訳(メタデータ) (2023-02-17T15:30:44Z) - ERNIE-Layout: Layout Knowledge Enhanced Pre-training for Visually-rich
Document Understanding [52.3895498789521]
レイアウト知識を向上した新しい文書事前学習ソリューションであるERNIEを提案する。
まず、直列化段階で入力シーケンスを並べ替え、相関的な事前学習タスクを示し、順序予測を行い、文書の適切な読み順序を学習する。
実験の結果、ERNIEは様々な下流タスクにおいて優れた性能を示し、キー情報に新たな最先端設定、文書質問応答を実現している。
論文 参考訳(メタデータ) (2022-10-12T12:59:24Z) - Multi-Modal Masked Autoencoders for Medical Vision-and-Language
Pre-Training [62.215025958347105]
マルチモーダルマスク付きオートエンコーダを用いた自己教師型学習パラダイムを提案する。
我々は、ランダムにマスキングされた画像やテキストから欠落したピクセルやトークンを再構成することで、クロスモーダルなドメイン知識を学習する。
論文 参考訳(メタデータ) (2022-09-15T07:26:43Z) - Automatic Image Content Extraction: Operationalizing Machine Learning in
Humanistic Photographic Studies of Large Visual Archives [81.88384269259706]
本稿では,機械学習による大規模画像アーカイブの検索と解析のための自動画像コンテンツ抽出フレームワークを提案する。
提案する枠組みは、人文科学と社会科学のいくつかの分野に適用できる。
論文 参考訳(メタデータ) (2022-04-05T12:19:24Z) - DocBed: A Multi-Stage OCR Solution for Documents with Complex Layouts [2.885058600042882]
この研究は、21の異なる州から3000の完全な注釈付き現実世界の新聞画像のデータセットを公開している。
既存の光学式文字認識(OCR)エンジンの先駆けとしてレイアウトセグメンテーションを提案する。
独立したレイアウトセグメンテーションとエンドツーエンドのOCRのための、徹底的で構造化された評価プロトコルを提供する。
論文 参考訳(メタデータ) (2022-02-03T05:21:31Z) - Digital Editions as Distant Supervision for Layout Analysis of Printed
Books [76.29918490722902]
本稿では,この意味的マークアップを,レイアウト解析モデルのトレーニングと評価のための遠隔監視として利用する手法について述べる。
DTA(Deutsches Textarchiv)の50万ページにわたるモデルアーキテクチャの実験では、これらの領域レベルの評価手法と画素レベルのメトリクスとワードレベルのメトリクスとの高い相関性を見出した。
自己学習による精度向上の可能性と、DTAで訓練されたモデルが他の歴史書に一般化できる可能性について論じる。
論文 参考訳(メタデータ) (2021-12-23T16:51:53Z) - Neural Content Extraction for Poster Generation of Scientific Papers [84.30128728027375]
科学論文のポスター生成の問題は未解明である。
これまでの研究は主にポスターレイアウトとパネル構成に重点を置いていたが、コンテンツ抽出の重要性は無視された。
ポスターパネルのテキスト要素と視覚要素の両方を得るために,紙セクションのテキスト,図形,テーブルを同時に抽出するニューラル抽出モデルを提案する。
論文 参考訳(メタデータ) (2021-12-16T01:19:37Z) - The Newspaper Navigator Dataset: Extracting And Analyzing Visual Content
from 16 Million Historic Newspaper Pages in Chronicling America [10.446473806802578]
写真,イラスト,地図,漫画,編集漫画のバウンディングボックスアノテーションに基づいて学習した視覚的コンテンツ認識モデルを提案する。
この深層学習モデルを用いて7種類の視覚コンテンツを抽出するパイプラインについて述べる。
我々は,日系アメリカのコーパスから1630万ページのパイプラインを運用した結果を報告する。
論文 参考訳(メタデータ) (2020-05-04T15:51:13Z) - An Evaluation of DNN Architectures for Page Segmentation of Historical
Newspapers [0.0]
我々は11種類の異なるDeep Neural Networksバックボーンアーキテクチャと9つの異なるタイリングとスケーリング構成を評価し、テキスト、テーブル、テーブル列を分離する。
本稿では,ラベル数とトレーニングページ数がセグメンテーション品質に与える影響を,マシューズ相関係数を用いて測定する。
この結果から,Inception-ResNet-v2とEfficientNetのバックボーンが最適であることがわかった。
論文 参考訳(メタデータ) (2020-04-15T20:05:54Z) - Combining Visual and Textual Features for Semantic Segmentation of
Historical Newspapers [2.5899040911480187]
本稿では,歴史新聞のセマンティックセマンティックセグメンテーションのためのマルチモーダルアプローチを提案する。
ダイアクロニックなスイスとルクセンブルクの新聞の実験に基づいて、視覚的特徴とテキスト的特徴の予測力について検討する。
その結果、強力な視覚ベースラインと比較して、マルチモーダルモデルの一貫した改善が見られた。
論文 参考訳(メタデータ) (2020-02-14T17:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。