論文の概要: Impression-CLIP: Contrastive Shape-Impression Embedding for Fonts
- arxiv url: http://arxiv.org/abs/2402.16350v1
- Date: Mon, 26 Feb 2024 07:07:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 14:25:36.766804
- Title: Impression-CLIP: Contrastive Shape-Impression Embedding for Fonts
- Title(参考訳): impression-clip:フォントのコントラスト型インプレッション
- Authors: Yugo Kubota, Daichi Haraguchi, Seiichi Uchida
- Abstract要約: CLIP(Contrastive Language- Image Pre-training)に基づく新しい機械学習モデルであるImpression-CLIPを提案する。
実験では,共埋め込みによるフォントと印象間の相互モーダル検索を行った。
その結果,Impression-CLIPは最先端手法よりも精度が高いことがわかった。
- 参考スコア(独自算出の注目度): 7.542892664684078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fonts convey different impressions to readers. These impressions often come
from the font shapes. However, the correlation between fonts and their
impression is weak and unstable because impressions are subjective. To capture
such weak and unstable cross-modal correlation between font shapes and their
impressions, we propose Impression-CLIP, which is a novel machine-learning
model based on CLIP (Contrastive Language-Image Pre-training). By using the
CLIP-based model, font image features and their impression features are pulled
closer, and font image features and unrelated impression features are pushed
apart. This procedure realizes co-embedding between font image and their
impressions. In our experiment, we perform cross-modal retrieval between fonts
and impressions through co-embedding. The results indicate that Impression-CLIP
achieves better retrieval accuracy than the state-of-the-art method.
Additionally, our model shows the robustness to noise and missing tags.
- Abstract(参考訳): フォントは異なる印象を読者に伝える。
これらの印象はしばしばフォントの形に由来する。
しかし、印象が主観的であるため、フォントと印象の相関は弱く不安定である。
このようなフォント形状と印象との弱い、不安定なクロスモーダル相関を捉えるために、クリップに基づく新しい機械学習モデルであるインプレッション・クリップを提案する。
CLIPベースのモデルを使用することで、フォント画像特徴とその印象特徴がより深く引き出され、フォント画像特徴と無関係な印象特徴が分離される。
この手順はフォント画像とその印象の共埋め込みを実現する。
実験では,共埋め込みによるフォントとインプレッションのクロスモーダル検索を行う。
その結果,Impression-CLIPは最先端手法よりも精度が高いことがわかった。
さらに、我々のモデルはノイズやタグの欠如に対する堅牢性を示している。
関連論文リスト
- Font Impression Estimation in the Wild [7.542892664684078]
フォントインプレッションに関するアノテーションを備えたフォントデータセットと、このタスクのための畳み込みニューラルネットワーク(CNN)フレームワークを使用する。
本稿では,入力画像に類似したフォントの印象をアンサンブルする戦略に依拠した,模範的な印象推定手法を提案する。
そこで本研究では,書籍のジャンルとフォント印象の相関分析を行った。
論文 参考訳(メタデータ) (2024-02-23T10:00:25Z) - Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - Interpreting CLIP's Image Representation via Text-Based Decomposition [80.34129476152519]
CLIP画像エンコーダは,個々のモデルコンポーネントが最終表現にどう影響するかを解析することによって検討する。
画像表現は、個々の画像パッチ、モデル層、アテンションヘッドにまたがる和として分解する。
この理解を利用して、CLIPからスプリケートな機能を取り除き、強力なゼロショットイメージセグメンタを作成します。
論文 参考訳(メタデータ) (2023-10-09T17:59:04Z) - VQ-Font: Few-Shot Font Generation with Structure-Aware Enhancement and
Quantization [52.870638830417]
本稿では,VQGANベースのフレームワーク(VQ-Font)を提案する。
具体的には、コードブック内でフォントトークンをカプセル化するために、VQGANを事前訓練する。その後、VQ-Fontは、合成したグリフをコードブックで洗練し、合成されたストロークと実世界のストロークのドメインギャップをなくす。
論文 参考訳(メタデータ) (2023-08-27T06:32:20Z) - DGFont++: Robust Deformable Generative Networks for Unsupervised Font
Generation [19.473023811252116]
教師なしフォント生成のための頑健な変形可能な生成ネットワークを提案する(略してDGFont++)。
異なるスタイルを区別するために、我々はマルチタスク判別器を用いてモデルを訓練し、それぞれのスタイルを独立して識別できるようにした。
実験により,本モデルは最先端手法よりも高品質なキャラクタ画像を生成することができることが示された。
論文 参考訳(メタデータ) (2022-12-30T14:35:10Z) - XMP-Font: Self-Supervised Cross-Modality Pre-training for Few-Shot Font
Generation [13.569449355929574]
本稿では,自己教師型クロスモダリティ事前学習戦略とクロスモダリティトランスフォーマーを用いたエンコーダを提案する。
エンコーダは、グリフ画像と対応するストロークラベルとを共同で条件付けする。
1つの参照グリフしか必要とせず、2番目のベストよりも28%低い数ショットフォント生成タスクにおいて、悪いケースの最低率を達成する。
論文 参考訳(メタデータ) (2022-04-11T13:34:40Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - Scalable Font Reconstruction with Dual Latent Manifolds [55.29525824849242]
タイポグラフィー解析とフォント再構成を行う深層生成モデルを提案する。
このアプローチによって、効果的にモデル化できるキャラクタの種類を大規模にスケールアップすることが可能になります。
多くの言語の文字タイプを表す様々なデータセット上でフォント再構成のタスクを評価する。
論文 参考訳(メタデータ) (2021-09-10T20:37:43Z) - Shared Latent Space of Font Shapes and Impressions [9.205278113241473]
フォント形状のイメージとその印象語がクロスモーダルな方法で埋め込まれた共有潜在空間を実現する。
この潜在空間は、スタイル印象相関を理解し、複数の印象語を指定してフォント画像を生成するのに有用である。
論文 参考訳(メタデータ) (2021-03-23T06:54:45Z) - Impressions2Font: Generating Fonts by Specifying Impressions [10.345810093530261]
本稿では,印象のあるフォント画像を生成するImpressions2Font(Imp2Font)を提案する。
Imp2Fontはフォント画像を生成する条件として任意の数の印象語を受け入れる。
論文 参考訳(メタデータ) (2021-03-18T06:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。