論文の概要: A Probabilistic Generative Model for Typographical Analysis of Early
Modern Printing
- arxiv url: http://arxiv.org/abs/2005.01646v1
- Date: Mon, 4 May 2020 17:01:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 00:12:22.624317
- Title: A Probabilistic Generative Model for Typographical Analysis of Early
Modern Printing
- Title(参考訳): 近世印刷のタイポグラフィー解析のための確率論的生成モデル
- Authors: Kartik Goyal, Chris Dyer, Christopher Warren, Max G'Sell, Taylor
Berg-Kirkpatrick
- Abstract要約: 印刷された近世文書のグリフ形状を解析するための,深く解釈可能な確率的生成モデルを提案する。
提案手法では,テンプレートパラメータから順応可能な潜伏変数を用いて,まずよく理解された印刷摂動を生成するニューラルエディターモデルを提案する。
本手法は,混在文書中の書体を完全に教師なしで発見する作業において,厳密な解釈可能なクラスタリングベースライン(Ocular)および過度に柔軟な深層生成モデル(VAE)よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 44.62884731273421
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a deep and interpretable probabilistic generative model to analyze
glyph shapes in printed Early Modern documents. We focus on clustering
extracted glyph images into underlying templates in the presence of multiple
confounding sources of variance. Our approach introduces a neural editor model
that first generates well-understood printing phenomena like spatial
perturbations from template parameters via interpertable latent variables, and
then modifies the result by generating a non-interpretable latent vector
responsible for inking variations, jitter, noise from the archiving process,
and other unforeseen phenomena associated with Early Modern printing.
Critically, by introducing an inference network whose input is restricted to
the visual residual between the observation and the interpretably-modified
template, we are able to control and isolate what the vector-valued latent
variable captures. We show that our approach outperforms rigid interpretable
clustering baselines (Ocular) and overly-flexible deep generative models (VAE)
alike on the task of completely unsupervised discovery of typefaces in
mixed-font documents.
- Abstract(参考訳): 近世文書のグリフ形状を分析するために, 深く, 解釈可能な確率的生成モデルを提案する。
我々は,複数の分散源が存在する場合に,抽出されたグリフ画像を基盤となるテンプレートにクラスタリングすることに焦点を当てる。
提案手法では,まず,テンプレートパラメータの空間摂動などのよく理解された印刷現象を解釈可能な潜伏変数を介して生成し,その変化,ジッタ,アーカイブプロセスからのノイズ,および初期近代印刷に関連する他の予期せぬ現象をインキングする非解釈可能な潜伏ベクトルを生成することにより,結果を修正する。
重要なことは、入力が観察と解釈可能修正テンプレートの間の視覚的残差に制限される推論ネットワークを導入することにより、ベクトル値の潜在変数が取得するものを制御および分離することができる。
本手法は,混在文書中の書体を完全に教師なしで発見する作業において,厳密な解釈可能なクラスタリングベースライン(Ocular)および過度に柔軟な深層生成モデル(VAE)よりも優れていることを示す。
関連論文リスト
- Sub-graph Based Diffusion Model for Link Prediction [43.15741675617231]
拡散確率モデル(Denoising Diffusion Probabilistic Models, DDPM)は、例外的な品質を持つ同時代の生成モデルである。
本研究では,ベイズ式による確率推定過程を分解するために,専用設計を用いたリンク予測のための新しい生成モデルを構築した。
提案手法は,(1)再トレーニングを伴わないデータセット間の転送可能性,(2)限られたトレーニングデータに対する有望な一般化,(3)グラフ敵攻撃に対する堅牢性など,多くの利点を示す。
論文 参考訳(メタデータ) (2024-09-13T02:23:55Z) - Prototype Generation: Robust Feature Visualisation for Data Independent
Interpretability [1.223779595809275]
プロトタイプ生成は、画像分類モデルのモデルに依存しない、データに依存しない解釈可能性のための、より厳密でより堅牢な特徴可視化形式である。
我々は、不自然な内部活性化のため、特徴可視化アルゴリズムが信頼できないという以前の主張に対抗して、自然な活性化経路をもたらすインプットを生成する能力を示す。
論文 参考訳(メタデータ) (2023-09-29T11:16:06Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - ChiroDiff: Modelling chirographic data with Diffusion Models [132.5223191478268]
チャーログラフィーデータのための強力なモデルクラスである「拡散確率モデル(Denoising Diffusion Probabilistic Models)」やDDPMを導入している。
我々のモデルは「ChiroDiff」と呼ばれ、非自己回帰的であり、全体論的概念を捉えることを学び、したがって高い時間的サンプリングレートに回復する。
論文 参考訳(メタデータ) (2023-04-07T15:17:48Z) - Molecular Property Prediction by Semantic-invariant Contrastive Learning [26.19431931932982]
分子特性予測のためのビュー生成法に基づくフラグメントに基づくセマンティック不変コントラスト学習モデルを開発した。
事前トレーニングのサンプルが少ないため、FraSICLは既存の主要なモデルと比較して最先端のパフォーマンスを達成できる。
論文 参考訳(メタデータ) (2023-03-13T07:32:37Z) - DiffusER: Discrete Diffusion via Edit-based Reconstruction [88.62707047517914]
DiffusERは、拡散モデルに基づくテキストの編集ベースの生成モデルである。
機械翻訳、要約、スタイル転送にまたがるいくつかのタスクにおいて、自動回帰モデルと競合する可能性がある。
また、標準的な自己回帰モデルに適さないような、他の種類の世代も実行することができる。
論文 参考訳(メタデータ) (2022-10-30T16:55:23Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z) - A Probabilistic Formulation of Unsupervised Text Style Transfer [128.80213211598752]
従来提案されていた非生成的手法を統一した教師なしテキストスタイル転送のための深層生成モデルを提案する。
観測された各シーケンスを生成する並列潜時シーケンスを仮定することにより、我々のモデルは、完全に教師なしの方法で、あるドメインから別のドメインへシーケンスを変換することを学ぶ。
論文 参考訳(メタデータ) (2020-02-10T16:20:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。