論文の概要: Natural Scene Text Editing Based on AI
- arxiv url: http://arxiv.org/abs/2111.15475v1
- Date: Fri, 26 Nov 2021 00:42:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-01 15:19:59.565642
- Title: Natural Scene Text Editing Based on AI
- Title(参考訳): AIに基づく自然シーンテキスト編集
- Authors: Yujie Zhang
- Abstract要約: 本研究は,文字レベルと桁レベルの画像テキストの変更方法を示す。
デジタル画像のエンコードと復号を行うための2部構成のレター・ディジット・ネットワーク(LDN)を考案しました。
- 参考スコア(独自算出の注目度): 6.212267829689601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In a recorded situation, textual information is crucial for scene
interpretation and decision making. The ability to edit text directly on images
has a number of advantages, including error correction, text restoration, and
image reusability. This research shows how to change image text at the letter
and digits level. I devised a two-part letters-digits network (LDN) to encode
and decode digital images, as well as learn and transfer the font style of the
source characters to the target characters. This method allows you to update
the uppercase letters, lowercase letters and digits in the picture.
- Abstract(参考訳): 記録された状況では、テキスト情報はシーンの解釈と意思決定に不可欠である。
画像に直接テキストを編集できる機能には、誤り訂正、テキスト復元、画像再利用性など、多くの利点がある。
本研究は,文字レベルと桁レベルの画像テキストの変更方法を示す。
デジタル画像のエンコードと復号化,およびソース文字のフォントスタイルを学習し,対象文字に転送する,2部構成の文字桁ネットワーク(LDN)を考案した。
この方法では、画像の上位文字、下位文字、桁を更新できる。
関連論文リスト
- VCR: Visual Caption Restoration [80.24176572093512]
画像内の画素レベルのヒントを用いて、部分的に隠されたテキストを正確に復元するモデルに挑戦する視覚言語タスクであるVisual Caption Restoration (VCR)を導入する。
この課題は、画像に埋め込まれたテキストは、視覚、テキスト、および画像に埋め込まれたテキストのモダリティを整合させる必要があるため、共通の視覚要素や自然言語とは本質的に異なるという観察に由来する。
論文 参考訳(メタデータ) (2024-06-10T16:58:48Z) - DM-Align: Leveraging the Power of Natural Language Instructions to Make Changes to Images [55.546024767130994]
本稿では,画像のどの部分を変更するか,保存するかを明確に推論することで,画像エディタのテキストベースの制御を強化する新しいモデルを提案する。
元のソースイメージの記述と必要な更新を反映する命令と入力イメージとの間の単語アライメントに依存する。
Bisonデータセットのサブセットと、Dreamと呼ばれる自己定義データセットで評価される。
論文 参考訳(メタデータ) (2024-04-27T22:45:47Z) - VIXEN: Visual Text Comparison Network for Image Difference Captioning [58.16313862434814]
画像間の視覚的差異をテキストで簡潔に要約する手法であるVIXENを提案する。
提案するネットワークは,事前学習された大規模言語モデルに対するソフトプロンプトを構築し,画像特徴を一対にマッピングする。
論文 参考訳(メタデータ) (2024-02-29T12:56:18Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z) - RewriteNet: Realistic Scene Text Image Generation via Editing Text in
Real-world Image [17.715320405808935]
シーンテキスト編集(STE)は、テキストとスタイルの複雑な介入のために難しい作業である。
本稿ではRewriteNetと呼ばれる新しい表現学習型STEモデルを提案する。
我々の実験は、RewriteNetが他の比較よりも定量的かつ定性的な性能を達成することを示した。
論文 参考訳(メタデータ) (2021-07-23T06:32:58Z) - I2C2W: Image-to-Character-to-Word Transformers for Accurate Scene Text
Recognition [68.95544645458882]
本稿では,シーンの様々なノイズに対して正確かつ耐性のある新しいシーンテキスト認識装置I2C2Wについて述べる。
i2c2wはイメージ・ツー・キャラクタモジュール(i2c)と文字・ワードモジュール(c2w)から構成される。
論文 参考訳(メタデータ) (2021-05-18T09:20:58Z) - SwapText: Image Based Texts Transfer in Scenes [13.475726959175057]
スワップテキスト(SwapText)はシーンイメージ間でテキストを転送するフレームワークである。
前景画像のみにテキストラベルを置換する新しいテキストスワップネットワークを提案する。
生成された前景画像と背景画像を用いて、融合ネットワークにより単語画像を生成する。
論文 参考訳(メタデータ) (2020-03-18T11:02:17Z) - STEFANN: Scene Text Editor using Font Adaptive Neural Network [18.79337509555511]
画像中のテキストを文字レベルで修正する手法を提案する。
本稿では,(a)FANnetと(b)Colornetという2つの異なるニューラルネットワークアーキテクチャを提案する。
本手法は画像中のテキストを編集するための統一的なプラットフォームとして機能する。
論文 参考訳(メタデータ) (2019-03-04T11:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。