論文の概要: Ambigram Generation by A Diffusion Model
- arxiv url: http://arxiv.org/abs/2306.12049v1
- Date: Wed, 21 Jun 2023 06:42:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 14:36:56.850536
- Title: Ambigram Generation by A Diffusion Model
- Title(参考訳): 拡散モデルによるアンビグラム生成
- Authors: Takahiro Shirakawa, Seiichi Uchida
- Abstract要約: アンビグラム(英: Ambigrams)は、元の方向と回転した方向から読むことができるグラフィカルな文字デザインである。
本稿では拡散モデルを用いたアンビグラム生成モデルを提案する。
実験結果の定量的および定性的分析により,提案モデルが高品質で多様なアンビグラムを生成できることが示唆された。
- 参考スコア(独自算出の注目度): 11.117357750374035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ambigrams are graphical letter designs that can be read not only from the
original direction but also from a rotated direction (especially with 180
degrees). Designing ambigrams is difficult even for human experts because
keeping their dual readability from both directions is often difficult. This
paper proposes an ambigram generation model. As its generation module, we use a
diffusion model, which has recently been used to generate high-quality
photographic images. By specifying a pair of letter classes, such as 'A' and
'B', the proposed model generates various ambigram images which can be read as
'A' from the original direction and 'B' from a direction rotated 180 degrees.
Quantitative and qualitative analyses of experimental results show that the
proposed model can generate high-quality and diverse ambigrams. In addition, we
define ambigramability, an objective measure of how easy it is to generate
ambigrams for each letter pair. For example, the pair of 'A' and 'V' shows a
high ambigramability (that is, it is easy to generate their ambigrams), and the
pair of 'D' and 'K' shows a lower ambigramability. The ambigramability gives
various hints of the ambigram generation not only for computers but also for
human experts. The code can be found at
(https://github.com/univ-esuty/ambifusion).
- Abstract(参考訳): アンビグラム(英: Ambigrams)は、原文の方向だけでなく、回転した方向(特に180度)からも読み取れるグラフィカルな文字デザインである。
両方向から2つの可読性を維持することはしばしば困難であるため、人間の専門家にとってもアンビグラムの設計は困難である。
本稿では,アンビグラム生成モデルを提案する。
生成モジュールとして,最近高品質の写真画像の生成に利用されている拡散モデルを用いる。
a」や「b」のような一対の文字クラスを指定することにより、提案モデルは、元の方向から「a」、180度回転した方向から「b」と読むことができる様々なアンビグラム画像を生成する。
実験結果の定量的および定性的分析により,提案モデルが高品質で多様なアンビグラムを生成できることが示唆された。
さらに、各文字対に対するアンビグラムの生成がいかに容易かの客観的尺度であるアンビグラム可能性を定義する。
例えば、「A」と「V」の対は高いアンビグラム性を示し(つまり、それらのアンビグラムを生成するのは容易)、「D」と「K」の対はより低いアンビグラム性を示す。
曖昧性は、コンピュータだけでなく、人間の専門家にとっても、アンビグラム生成の様々なヒントを与える。
コードは (https://github.com/univ-esuty/ambifusion) にある。
関連論文リスト
- Commonsense-T2I Challenge: Can Text-to-Image Generation Models Understand Commonsense? [97.0899853256201]
本稿では,実生活におけるコモンセンスと整合した画像を生成するためのテキスト・ツー・イメージ生成モデルの能力を評価するための新しいタスクとベンチマークを提案する。
我々は、T2Iモデルが、例えば「電球は無光である」と「電球は無光である」というようなイメージを生成できるかどうかを評価する。
さまざまな最先端(ソータ)のT2Iモデルをベンチマークした結果、画像合成と実写写真の間にはまだ大きなギャップがあることがわかった。
論文 参考訳(メタデータ) (2024-06-11T17:59:48Z) - DEADiff: An Efficient Stylization Diffusion Model with Disentangled
Representations [64.43387739794531]
現在のエンコーダベースのアプローチは、スタイルの転送中にテキスト・ツー・イメージモデルのテキスト制御性を著しく損なう。
この問題に対処するために、以下の2つの戦略を用いてDEADiffを紹介します。
DeAiffは、テキスト・ツー・イメージモデルに固有のテキスト制御性と、参照画像とスタイルの類似性との間の最適な視覚的スタイリング結果と最適なバランスを得る。
論文 参考訳(メタデータ) (2024-03-11T17:35:23Z) - AmbiGen: Generating Ambigrams from Pre-trained Diffusion Model [23.66918282144914]
本稿では,大規模な視覚・言語拡散モデルであるDeepFloyd IFを蒸留し,アンビグラムを生成することを提案する。
英語で最も一般的な500語に対して,単語の精度が11.6%以上向上し,編集距離が41.9%以上削減された。
論文 参考訳(メタデータ) (2023-12-05T18:56:06Z) - DiagrammerGPT: Generating Open-Domain, Open-Platform Diagrams via LLM Planning [62.51232333352754]
テキスト・ツー・イメージ(T2I)世代はここ数年で著しい成長を遂げている。
それにもかかわらず、T2Iモデルでダイアグラムを生成する作業はほとんど行われていない。
本稿では,新しい2段階のテキスト・ツー・ダイアグラム生成フレームワークであるDiagrammerGPTを紹介する。
我々のフレームワークは、既存のT2Iモデルを上回る精度で、より正確なダイアグラムを生成する。
論文 参考訳(メタデータ) (2023-10-18T17:37:10Z) - Graph-level Representation Learning with Joint-Embedding Predictive Architectures [43.89120279424267]
JEPA(Joint-Embedding Predictive Architectures)は、自己指導型表現学習の斬新で強力な技術である。
グラフ結合埋め込み予測アーキテクチャ(Graph-JEPA)を提案することにより、このパラダイムを用いてグラフレベルの表現を効果的にモデル化できることを示す。
特に、マスク付きモデリングを採用し、コンテキストサブグラフの潜時表現から始まるマスク付きサブグラフの潜時表現を予測することに焦点をあてる。
論文 参考訳(メタデータ) (2023-09-27T20:42:02Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z) - Cross-view Self-Supervised Learning on Heterogeneous Graph Neural
Network via Bootstrapping [0.0]
不均一グラフニューラルネットワークは、優れた能力を持つ異種グラフの情報を表現することができる。
本稿では,多数のペアを生成することなく優れた表現を生成できるシステムを提案する。
提案モデルは,様々な実世界のデータセットにおいて,他の手法よりも最先端の性能を示した。
論文 参考訳(メタデータ) (2022-01-10T13:36:05Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - L-Verse: Bidirectional Generation Between Image and Text [41.133824156046394]
L-Verseは、AugVAE(Feature-augmented Variational Autoencoder)とBiART(Bidirectional Auto-Regressive Transformer)で構成される新しいアーキテクチャである。
AugVAEは、ImageNet1Kバリデーションセットにおける最先端の再構築性能と、野生の未確認画像に対するロバスト性を示している。
L-Verseは、微調整や余分なオブジェクト検出フレームワークを使わずに、画像からテキスト、テキストから画像を生成するタスクに直接使用することができる。
論文 参考訳(メタデータ) (2021-11-22T11:48:26Z) - Towards Graph Self-Supervised Learning with Contrastive Adjusted Zooming [48.99614465020678]
本稿では,グラフコントラスト適応ズームによる自己教師付きグラフ表現学習アルゴリズムを提案する。
このメカニズムにより、G-Zoomはグラフから複数のスケールから自己超越信号を探索して抽出することができる。
我々は,実世界のデータセットに関する広範な実験を行い,提案したモデルが常に最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-11-20T22:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。