論文の概要: OCR-VQGAN: Taming Text-within-Image Generation
- arxiv url: http://arxiv.org/abs/2210.11248v1
- Date: Wed, 19 Oct 2022 16:37:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 15:07:28.894311
- Title: OCR-VQGAN: Taming Text-within-Image Generation
- Title(参考訳): OCR-VQGAN:画像生成によるテキスト処理
- Authors: Juan A. Rodriguez, David Vazquez, Issam Laradji, Marco Pedersoli, Pau
Rodriguez
- Abstract要約: 我々はOCR-VQGAN,画像エンコーダ,およびOCR事前学習機能を利用してテキスト知覚損失を最適化するデコーダを提案する。
我々は,OCR-VQGANの有効性を図形再構成の課題に関するいくつかの実験により実証した。
- 参考スコア(独自算出の注目度): 4.5718306968064635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthetic image generation has recently experienced significant improvements
in domains such as natural image or art generation. However, the problem of
figure and diagram generation remains unexplored. A challenging aspect of
generating figures and diagrams is effectively rendering readable texts within
the images. To alleviate this problem, we present OCR-VQGAN, an image encoder,
and decoder that leverages OCR pre-trained features to optimize a text
perceptual loss, encouraging the architecture to preserve high-fidelity text
and diagram structure. To explore our approach, we introduce the Paper2Fig100k
dataset, with over 100k images of figures and texts from research papers. The
figures show architecture diagrams and methodologies of articles available at
arXiv.org from fields like artificial intelligence and computer vision. Figures
usually include text and discrete objects, e.g., boxes in a diagram, with lines
and arrows that connect them. We demonstrate the effectiveness of OCR-VQGAN by
conducting several experiments on the task of figure reconstruction.
Additionally, we explore the qualitative and quantitative impact of weighting
different perceptual metrics in the overall loss function. We release code,
models, and dataset at https://github.com/joanrod/ocr-vqgan.
- Abstract(参考訳): 合成画像生成は最近、自然画像やアート生成といった領域で大幅に改善されている。
しかし、図と図生成の問題はまだ未定である。
図や図を生成する上で難しいのは、画像内で読みやすいテキストを効果的に描画することである。
この問題を解決するために,ocrプリトレーニング機能を活用した画像エンコーダとデコーダであるocr-vqganを提案する。
本稿では,論文から100万枚以上の図形とテキストを抽出したPaper2Fig100kデータセットを紹介する。
図は、人工知能やコンピュータビジョンなどの分野から、arXiv.orgで利用可能な記事のアーキテクチャ図と方法論を示している。
図は通常、テキストと離散オブジェクト、例えばダイアグラム内のボックス、それらを接続する行と矢印を含む。
我々は,OCR-VQGANの有効性を図形再構成の課題に関するいくつかの実験により実証した。
さらに,全体損失関数における異なる知覚的指標の重み付けによる質的,定量的な影響について検討する。
私たちはhttps://github.com/joanrod/ocr-vqganでコード、モデル、データセットをリリースします。
関連論文リスト
- See then Tell: Enhancing Key Information Extraction with Vision Grounding [54.061203106565706]
STNet(See then Tell Net)は,視覚基盤の正確な答えを提供するために設計された,新しいエンドツーエンドモデルである。
モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
論文 参考訳(メタデータ) (2024-09-29T06:21:05Z) - Textual Inversion and Self-supervised Refinement for Radiology Report Generation [25.779160968864435]
放射線学レポート作成のためのテキスト・インバージョン・セルフ・教師付きリファインメント(TISR)を提案する。
TISRは、画像を擬似語として表現することで、テキストと画像を同じ空間に投影し、相互モデリングのギャップをなくす。
広範に利用されている2つの公開データセットの実験を行い、様々なベースラインで大幅に改善した。
論文 参考訳(メタデータ) (2024-05-31T03:47:44Z) - Text Image Inpainting via Global Structure-Guided Diffusion Models [22.859984320894135]
現実世界のテキストは、環境や人為的な要因によって引き起こされる腐食問題によって損傷を受けることがある。
現在の塗装技術は、しばしばこの問題に適切に対処するのに失敗する。
我々は,新たなニューラルネットワークフレームワークであるGlobal Structure-Guided Diffusion Model (GSDM) を潜在的ソリューションとして開発する。
論文 参考訳(メタデータ) (2024-01-26T13:01:28Z) - Benchmarking Robustness of Text-Image Composed Retrieval [46.98557472744255]
テキスト画像合成検索は、合成されたクエリを通してターゲット画像を取得することを目的としている。
近年,情報に富む画像と簡潔な言語の両方を活用する能力に注目が集まっている。
しかし、現実世界の腐敗やさらなるテキスト理解に対するこれらのアプローチの堅牢性は研究されていない。
論文 参考訳(メタデータ) (2023-11-24T20:16:38Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - DAE-GAN: Dynamic Aspect-aware GAN for Text-to-Image Synthesis [55.788772366325105]
本研究では,文レベル,単語レベル,アスペクトレベルを含む複数の粒度からテキスト情報を包括的に表現する動的アスペクト・アワーン(DAE-GAN)を提案する。
人間の学習行動にインスパイアされた画像改善のためのADR(Aspect-aware Dynamic Re-drawer)を開発し,AGR(Attended Global Refinement)モジュールとALR(Aspect-aware Local Refinement)モジュールを交互に使用する。
論文 参考訳(メタデータ) (2021-08-27T07:20:34Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - RTIC: Residual Learning for Text and Image Composition using Graph
Convolutional Network [19.017377597937617]
画像検索のための画像とテキストの構成学習について検討する。
本稿では,グラフ畳み込みネットワーク(gcn)と既存の合成手法を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2021-04-07T09:41:52Z) - PICK: Processing Key Information Extraction from Documents using
Improved Graph Learning-Convolutional Networks [5.210482046387142]
文書から重要な情報抽出は依然として課題である。
我々は,KIEの複雑なドキュメントレイアウトを扱う上で,効果的かつ堅牢なフレームワークであるPICKを紹介する。
提案手法は, 基準線法を有意差で上回っている。
論文 参考訳(メタデータ) (2020-04-16T05:20:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。