論文の概要: Character-Aware Models Improve Visual Text Rendering
- arxiv url: http://arxiv.org/abs/2212.10562v1
- Date: Tue, 20 Dec 2022 18:59:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 14:10:56.475620
- Title: Character-Aware Models Improve Visual Text Rendering
- Title(参考訳): 文字認識モデルによるビジュアルテキストレンダリングの改善
- Authors: Rosanne Liu, Dan Garrette, Chitwan Saharia, William Chan, Adam
Roberts, Sharan Narang, Irina Blok, RJ Mical, Mohammad Norouzi, Noah Constant
- Abstract要約: 現在の画像生成モデルは、十分に整形されたビジュアルテキストを生成するのに苦労している。
文字認識モデルは、新しい綴りタスクに大きな利益をもたらす。
モデルでは、視覚的な綴りの精度は、稀な単語の競合よりも30ポイント以上向上している。
- 参考スコア(独自算出の注目度): 57.19915686282047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current image generation models struggle to reliably produce well-formed
visual text. In this paper, we investigate a key contributing factor: popular
text-to-image models lack character-level input features, making it much harder
to predict a word's visual makeup as a series of glyphs. To quantify the extent
of this effect, we conduct a series of controlled experiments comparing
character-aware vs. character-blind text encoders. In the text-only domain, we
find that character-aware models provide large gains on a novel spelling task
(WikiSpell). Transferring these learnings onto the visual domain, we train a
suite of image generation models, and show that character-aware variants
outperform their character-blind counterparts across a range of novel text
rendering tasks (our DrawText benchmark). Our models set a much higher
state-of-the-art on visual spelling, with 30+ point accuracy gains over
competitors on rare words, despite training on far fewer examples.
- Abstract(参考訳): 現在の画像生成モデルは、よく形成されたビジュアルテキストを確実に生成するのに苦労している。
一般的なテキストから画像へのモデルには文字レベルの入力機能がないため、単語の視覚的な構成を一連のグリフとして予測するのがずっと困難である。
この効果の程度を定量化するために,文字認識と文字認識テキストエンコーダを比較した一連の制御実験を行った。
テキストのみのドメインでは、文字認識モデルは新しいスペルタスク(WikiSpell)に大きな利益をもたらす。
これらの学習を視覚領域に転送し、画像生成モデルをトレーニングし、文字認識の変種が、新しいテキストレンダリングタスク(DrawTextベンチマーク)で文字認識の変種よりも優れていることを示す。
われわれのモデルはビジュアルスペルの精度をはるかに高く設定し、稀な単語の競合よりも30ポイント以上精度が向上した。
関連論文リスト
- Improving face generation quality and prompt following with synthetic captions [57.47448046728439]
画像から正確な外観記述を生成するために,トレーニング不要のパイプラインを導入する。
次に、これらの合成キャプションを使用して、テキストから画像への拡散モデルを微調整する。
提案手法は,高品質で現実的な人間の顔を生成するモデルの能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-05-17T15:50:53Z) - ViGoR: Improving Visual Grounding of Large Vision Language Models with Fine-Grained Reward Modeling [35.098725056881655]
大型視覚言語モデル(LVLM)は前例のない視覚推論能力を示している。
生成されたテキストは、しばしば視覚入力の不正確な接地に悩まされ、既存のシーン要素の幻覚などのエラーが発生する。
そこで我々は,LVLMの視覚的接地性を高めるために,微粒な報酬モデルを用いた新しいフレームワークViGoRを提案する。
論文 参考訳(メタデータ) (2024-02-09T01:00:14Z) - Enhancing Diffusion Models with Text-Encoder Reinforcement Learning [63.41513909279474]
テキストから画像への拡散モデルは通常、ログのような目的を最適化するために訓練される。
近年の研究では、強化学習や直接バックプロパゲーションを通じて人間の報酬を用いて拡散U-Netを精製することでこの問題に対処している。
我々は、強化学習によってテキストエンコーダを微調整することにより、結果のテキストイメージアライメントを強化することができることを示した。
論文 参考訳(メタデータ) (2023-11-27T09:39:45Z) - Learning the Visualness of Text Using Large Vision-Language Models [42.75864384249245]
視覚的テキストは人の心の中のイメージを誘発するが、視覚的でないテキストはそれを起こさない。
テキスト内の視覚を自動的に検出する手法により、テキスト・ツー・イメージ検索と生成モデルにより、関連する画像でテキストを拡張できる。
我々は,3,620の英語文のデータセットと,複数のアノテータによって提供されるその視覚性スコアをキュレートする。
論文 参考訳(メタデータ) (2023-05-11T17:45:16Z) - Handwritten Text Generation from Visual Archetypes [25.951540903019467]
Few-Shotスタイルの手書きテキスト生成のためのTransformerベースのモデルを提案する。
我々は,大規模な合成データセット上で,特定の事前学習を活用することで,目に見えない作者の書跡の堅牢な表現を得る。
論文 参考訳(メタデータ) (2023-03-27T14:58:20Z) - Aligning Text-to-Image Models using Human Feedback [104.76638092169604]
現在のテキスト・ツー・イメージモデルは、しばしばテキスト・プロンプトと不適切に一致した画像を生成する。
そこで本研究では,人間のフィードバックを用いて,そのようなモデルを調整するための微調整手法を提案する。
その結果,人間のフィードバックから学び,テキスト・ツー・イメージ・モデルを大幅に改善する可能性が示された。
論文 参考訳(メタデータ) (2023-02-23T17:34:53Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。