論文の概要: AmbiGen: Generating Ambigrams from Pre-trained Diffusion Model
- arxiv url: http://arxiv.org/abs/2312.02967v1
- Date: Tue, 5 Dec 2023 18:56:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 14:32:40.635051
- Title: AmbiGen: Generating Ambigrams from Pre-trained Diffusion Model
- Title(参考訳): AmbiGen: 事前訓練拡散モデルからアンビグラムを生成する
- Authors: Boheng Zhao, Rana Hanocka, Raymond A. Yeh
- Abstract要約: 本稿では,大規模な視覚・言語拡散モデルであるDeepFloyd IFを蒸留し,アンビグラムを生成することを提案する。
英語で最も一般的な500語に対して,単語の精度が11.6%以上向上し,編集距離が41.9%以上削減された。
- 参考スコア(独自算出の注目度): 23.66918282144914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ambigrams are calligraphic designs that have different meanings depending on
the viewing orientation. Creating ambigrams is a challenging task even for
skilled artists, as it requires maintaining the meaning under two different
viewpoints at the same time. In this work, we propose to generate ambigrams by
distilling a large-scale vision and language diffusion model, namely DeepFloyd
IF, to optimize the letters' outline for legibility in the two viewing
orientations. Empirically, we demonstrate that our approach outperforms
existing ambigram generation methods. On the 500 most common words in English,
our method achieves more than an 11.6% increase in word accuracy and at least a
41.9% reduction in edit distance.
- Abstract(参考訳): アンビグラム(英: Ambigram)は、視線方向によって異なる意味を持つ書体デザインである。
アンビグラムを作成することは熟練アーティストにとっても難しい課題であり、同時に2つの異なる視点の下で意味を維持する必要がある。
そこで本研究では,大規模視覚・言語拡散モデルであるdeepfloyd ifを蒸留してアンビグラムを生成し,文字のアウトラインを2つの視野方向において適度に最適化する手法を提案する。
実験により,本手法が既存のアンビグラム生成法より優れていることを示す。
英語で最も一般的な500語に対して,単語の精度が11.6%以上向上し,編集距離が41.9%以上削減された。
関連論文リスト
- Fantastic Semantics and Where to Find Them: Investigating Which Layers of Generative LLMs Reflect Lexical Semantics [50.982315553104975]
本稿では,Llama2という人気言語モデルに対する語彙意味論のボトムアップ進化について検討する。
実験の結果,下位層の表現は語彙的意味論を符号化しているが,上位層はより弱い意味帰納的帰納的帰納的帰納的帰納的帰納的帰納的帰属的帰属的帰属的帰属的存在であることがわかった。
これは、高層層がより良い語彙意味論を得るマスク言語モデリングのような差別的な目的を持つモデルとは対照的である。
論文 参考訳(メタデータ) (2024-03-03T13:14:47Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Distilling Large Vision-Language Model with Out-of-Distribution
Generalizability [43.984177729641615]
本稿では,大規模教師の視覚言語モデルから軽量学生モデルへの視覚表現の蒸留について検討する。
本稿では,いくつかの指標を提案し,その手法を検証するための広範囲な実験を行う。
その結果,オープン・ボキャブラリ・アウト・オブ・ディストリビューションの分類において,ゼロショットと少数ショットの学生のパフォーマンスが著しく向上した。
論文 参考訳(メタデータ) (2023-07-06T17:05:26Z) - Ambigram Generation by A Diffusion Model [11.117357750374035]
アンビグラム(英: Ambigrams)は、元の方向と回転した方向から読むことができるグラフィカルな文字デザインである。
本稿では拡散モデルを用いたアンビグラム生成モデルを提案する。
実験結果の定量的および定性的分析により,提案モデルが高品質で多様なアンビグラムを生成できることが示唆された。
論文 参考訳(メタデータ) (2023-06-21T06:42:57Z) - We're Afraid Language Models Aren't Modeling Ambiguity [136.8068419824318]
あいまいさの管理は人間の言語理解の重要な部分です。
文中のあいまいさは,他の文との係り受け関係に与える影響によって特徴付けられる。
我々は,多ラベルNLIモデルが曖昧さによって誤解を招く野生の政治的主張にフラグを付けることができることを示す。
論文 参考訳(メタデータ) (2023-04-27T17:57:58Z) - Word-As-Image for Semantic Typography [41.380457098839926]
単語・アズ・イメージ(Word-as-image)は、単語のイラストが単語の意味を視覚化するセマンティック・タイポグラフィー技法である。
本稿では,単語・アズ・イメージのイラストを自動生成する手法を提案する。
論文 参考訳(メタデータ) (2023-03-03T09:59:25Z) - Learning to Prompt for Vision-Language Models [82.25005817904027]
視覚言語による事前学習が表現学習の有望な代替手段として登場した。
画像と離散ラベルを使って、視覚的な概念と見なされる一連の重みを学習する伝統から、2つの異なるエンコーダのための画像と生のテキストの整列へと移行する。
このようなパラダイムは、より広範な監視源の恩恵を受け、下流タスクへのゼロショット転送を可能にします。
論文 参考訳(メタデータ) (2021-09-02T17:57:31Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z) - SLUA: A Super Lightweight Unsupervised Word Alignment Model via
Cross-Lingual Contrastive Learning [79.91678610678885]
超軽量非教師付き単語アライメントモデル(SLUA)を提案する。
いくつかの公開ベンチマークによる実験結果から,我々のモデルは性能が向上しても競争力を発揮することが示された。
特に、我々のモデルはバイリンガル単語の埋め込みと単語のアライメントを統一する先駆的な試みであると認識している。
論文 参考訳(メタデータ) (2021-02-08T05:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。