論文の概要: Impression-CLIP: Contrastive Shape-Impression Embedding for Fonts
- arxiv url: http://arxiv.org/abs/2402.16350v1
- Date: Mon, 26 Feb 2024 07:07:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 14:25:36.766804
- Title: Impression-CLIP: Contrastive Shape-Impression Embedding for Fonts
- Title(参考訳): impression-clip:フォントのコントラスト型インプレッション
- Authors: Yugo Kubota, Daichi Haraguchi, Seiichi Uchida
- Abstract要約: CLIP(Contrastive Language- Image Pre-training)に基づく新しい機械学習モデルであるImpression-CLIPを提案する。
実験では,共埋め込みによるフォントと印象間の相互モーダル検索を行った。
その結果,Impression-CLIPは最先端手法よりも精度が高いことがわかった。
- 参考スコア(独自算出の注目度): 7.542892664684078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fonts convey different impressions to readers. These impressions often come
from the font shapes. However, the correlation between fonts and their
impression is weak and unstable because impressions are subjective. To capture
such weak and unstable cross-modal correlation between font shapes and their
impressions, we propose Impression-CLIP, which is a novel machine-learning
model based on CLIP (Contrastive Language-Image Pre-training). By using the
CLIP-based model, font image features and their impression features are pulled
closer, and font image features and unrelated impression features are pushed
apart. This procedure realizes co-embedding between font image and their
impressions. In our experiment, we perform cross-modal retrieval between fonts
and impressions through co-embedding. The results indicate that Impression-CLIP
achieves better retrieval accuracy than the state-of-the-art method.
Additionally, our model shows the robustness to noise and missing tags.
- Abstract(参考訳): フォントは異なる印象を読者に伝える。
これらの印象はしばしばフォントの形に由来する。
しかし、印象が主観的であるため、フォントと印象の相関は弱く不安定である。
このようなフォント形状と印象との弱い、不安定なクロスモーダル相関を捉えるために、クリップに基づく新しい機械学習モデルであるインプレッション・クリップを提案する。
CLIPベースのモデルを使用することで、フォント画像特徴とその印象特徴がより深く引き出され、フォント画像特徴と無関係な印象特徴が分離される。
この手順はフォント画像とその印象の共埋め込みを実現する。
実験では,共埋め込みによるフォントとインプレッションのクロスモーダル検索を行う。
その結果,Impression-CLIPは最先端手法よりも精度が高いことがわかった。
さらに、我々のモデルはノイズやタグの欠如に対する堅牢性を示している。
関連論文リスト
- TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - Khattat: Enhancing Readability and Concept Representation of Semantic Typography [0.3994968615706021]
セマンティックタイポグラフィーは、アイデアを選択し、適切なフォントを選択し、創造性と可読性のバランスをとる。
このプロセスを自動化するエンドツーエンドシステムを導入します。
鍵となる機能はOCRベースの損失関数で、読みやすさを高め、複数の文字の同時スタイリングを可能にする。
論文 参考訳(メタデータ) (2024-10-01T18:42:48Z) - Finetuning CLIP to Reason about Pairwise Differences [52.028073305958074]
本稿では,CLIPのような視覚言語モデルの学習手法を提案する。
我々はまず,ある属性による画像のランク付け能力を大幅に向上させることを実証した。
また、得られる埋め込みは埋め込み空間においてより大きな幾何学的性質に従うことを示す。
論文 参考訳(メタデータ) (2024-09-15T13:02:14Z) - GRIF-DM: Generation of Rich Impression Fonts using Diffusion Models [18.15911470339845]
我々は、特定の印象を鮮明に具現化するフォントを生成するための拡散法である「usmethod」を導入する。
MyFontsデータセットを用いて,本手法が現実的で活気があり,高忠実なフォントを生成可能であることを確認した。
論文 参考訳(メタデータ) (2024-08-14T02:26:46Z) - Font Impression Estimation in the Wild [7.542892664684078]
フォントインプレッションに関するアノテーションを備えたフォントデータセットと、このタスクのための畳み込みニューラルネットワーク(CNN)フレームワークを使用する。
本稿では,入力画像に類似したフォントの印象をアンサンブルする戦略に依拠した,模範的な印象推定手法を提案する。
そこで本研究では,書籍のジャンルとフォント印象の相関分析を行った。
論文 参考訳(メタデータ) (2024-02-23T10:00:25Z) - Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - VQ-Font: Few-Shot Font Generation with Structure-Aware Enhancement and
Quantization [52.870638830417]
本稿では,VQGANベースのフレームワーク(VQ-Font)を提案する。
具体的には、コードブック内でフォントトークンをカプセル化するために、VQGANを事前訓練する。その後、VQ-Fontは、合成したグリフをコードブックで洗練し、合成されたストロークと実世界のストロークのドメインギャップをなくす。
論文 参考訳(メタデータ) (2023-08-27T06:32:20Z) - DGFont++: Robust Deformable Generative Networks for Unsupervised Font
Generation [19.473023811252116]
教師なしフォント生成のための頑健な変形可能な生成ネットワークを提案する(略してDGFont++)。
異なるスタイルを区別するために、我々はマルチタスク判別器を用いてモデルを訓練し、それぞれのスタイルを独立して識別できるようにした。
実験により,本モデルは最先端手法よりも高品質なキャラクタ画像を生成することができることが示された。
論文 参考訳(メタデータ) (2022-12-30T14:35:10Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - Scalable Font Reconstruction with Dual Latent Manifolds [55.29525824849242]
タイポグラフィー解析とフォント再構成を行う深層生成モデルを提案する。
このアプローチによって、効果的にモデル化できるキャラクタの種類を大規模にスケールアップすることが可能になります。
多くの言語の文字タイプを表す様々なデータセット上でフォント再構成のタスクを評価する。
論文 参考訳(メタデータ) (2021-09-10T20:37:43Z) - Shared Latent Space of Font Shapes and Impressions [9.205278113241473]
フォント形状のイメージとその印象語がクロスモーダルな方法で埋め込まれた共有潜在空間を実現する。
この潜在空間は、スタイル印象相関を理解し、複数の印象語を指定してフォント画像を生成するのに有用である。
論文 参考訳(メタデータ) (2021-03-23T06:54:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。