論文の概要: A Probabilistic Generative Model for Typographical Analysis of Early
Modern Printing
- arxiv url: http://arxiv.org/abs/2005.01646v1
- Date: Mon, 4 May 2020 17:01:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 00:12:22.624317
- Title: A Probabilistic Generative Model for Typographical Analysis of Early
Modern Printing
- Title(参考訳): 近世印刷のタイポグラフィー解析のための確率論的生成モデル
- Authors: Kartik Goyal, Chris Dyer, Christopher Warren, Max G'Sell, Taylor
Berg-Kirkpatrick
- Abstract要約: 印刷された近世文書のグリフ形状を解析するための,深く解釈可能な確率的生成モデルを提案する。
提案手法では,テンプレートパラメータから順応可能な潜伏変数を用いて,まずよく理解された印刷摂動を生成するニューラルエディターモデルを提案する。
本手法は,混在文書中の書体を完全に教師なしで発見する作業において,厳密な解釈可能なクラスタリングベースライン(Ocular)および過度に柔軟な深層生成モデル(VAE)よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 44.62884731273421
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a deep and interpretable probabilistic generative model to analyze
glyph shapes in printed Early Modern documents. We focus on clustering
extracted glyph images into underlying templates in the presence of multiple
confounding sources of variance. Our approach introduces a neural editor model
that first generates well-understood printing phenomena like spatial
perturbations from template parameters via interpertable latent variables, and
then modifies the result by generating a non-interpretable latent vector
responsible for inking variations, jitter, noise from the archiving process,
and other unforeseen phenomena associated with Early Modern printing.
Critically, by introducing an inference network whose input is restricted to
the visual residual between the observation and the interpretably-modified
template, we are able to control and isolate what the vector-valued latent
variable captures. We show that our approach outperforms rigid interpretable
clustering baselines (Ocular) and overly-flexible deep generative models (VAE)
alike on the task of completely unsupervised discovery of typefaces in
mixed-font documents.
- Abstract(参考訳): 近世文書のグリフ形状を分析するために, 深く, 解釈可能な確率的生成モデルを提案する。
我々は,複数の分散源が存在する場合に,抽出されたグリフ画像を基盤となるテンプレートにクラスタリングすることに焦点を当てる。
提案手法では,まず,テンプレートパラメータの空間摂動などのよく理解された印刷現象を解釈可能な潜伏変数を介して生成し,その変化,ジッタ,アーカイブプロセスからのノイズ,および初期近代印刷に関連する他の予期せぬ現象をインキングする非解釈可能な潜伏ベクトルを生成することにより,結果を修正する。
重要なことは、入力が観察と解釈可能修正テンプレートの間の視覚的残差に制限される推論ネットワークを導入することにより、ベクトル値の潜在変数が取得するものを制御および分離することができる。
本手法は,混在文書中の書体を完全に教師なしで発見する作業において,厳密な解釈可能なクラスタリングベースライン(Ocular)および過度に柔軟な深層生成モデル(VAE)よりも優れていることを示す。
関連論文リスト
- Prototype Generation: Robust Feature Visualisation for Data Independent
Interpretability [1.223779595809275]
プロトタイプ生成は、画像分類モデルのモデルに依存しない、データに依存しない解釈可能性のための、より厳密でより堅牢な特徴可視化形式である。
我々は、不自然な内部活性化のため、特徴可視化アルゴリズムが信頼できないという以前の主張に対抗して、自然な活性化経路をもたらすインプットを生成する能力を示す。
論文 参考訳(メタデータ) (2023-09-29T11:16:06Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - ChiroDiff: Modelling chirographic data with Diffusion Models [132.5223191478268]
チャーログラフィーデータのための強力なモデルクラスである「拡散確率モデル(Denoising Diffusion Probabilistic Models)」やDDPMを導入している。
我々のモデルは「ChiroDiff」と呼ばれ、非自己回帰的であり、全体論的概念を捉えることを学び、したがって高い時間的サンプリングレートに回復する。
論文 参考訳(メタデータ) (2023-04-07T15:17:48Z) - Molecular Property Prediction by Semantic-invariant Contrastive Learning [26.19431931932982]
分子特性予測のためのビュー生成法に基づくフラグメントに基づくセマンティック不変コントラスト学習モデルを開発した。
事前トレーニングのサンプルが少ないため、FraSICLは既存の主要なモデルと比較して最先端のパフォーマンスを達成できる。
論文 参考訳(メタデータ) (2023-03-13T07:32:37Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - DiffusER: Discrete Diffusion via Edit-based Reconstruction [88.62707047517914]
DiffusERは、拡散モデルに基づくテキストの編集ベースの生成モデルである。
機械翻訳、要約、スタイル転送にまたがるいくつかのタスクにおいて、自動回帰モデルと競合する可能性がある。
また、標準的な自己回帰モデルに適さないような、他の種類の世代も実行することができる。
論文 参考訳(メタデータ) (2022-10-30T16:55:23Z) - PassFlow: Guessing Passwords with Generative Flows [1.1470070927586016]
フローに基づく生成モデルによるパスワード推定手法を提案する。
フローベースのモデルは正確なログライクな最適化を可能にし、正確な潜在変数推論を可能にする。
フローベースのネットワークは、元のパスワード分布を正確にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-05-13T09:50:36Z) - Improving the Reconstruction of Disentangled Representation Learners via
Multi-Stage Modelling [36.511724015405036]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
モデルが相関変数を学習するのに十分な能力を持っていないため,不整合表現学習と再構成品質のトレードオフがもたらされる。
本稿では,既存の不整合表現学習手法を用いて,非整合因子をまず学習する,新しい多段階モデリング手法を提案する。
提案するマルチステージモデルは,複数の標準ベンチマークにおいて等価なアンタングル性能を有する現在の最先端手法よりも,はるかに高い再現性を有することを示す。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z) - A Probabilistic Formulation of Unsupervised Text Style Transfer [128.80213211598752]
従来提案されていた非生成的手法を統一した教師なしテキストスタイル転送のための深層生成モデルを提案する。
観測された各シーケンスを生成する並列潜時シーケンスを仮定することにより、我々のモデルは、完全に教師なしの方法で、あるドメインから別のドメインへシーケンスを変換することを学ぶ。
論文 参考訳(メタデータ) (2020-02-10T16:20:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。