論文の概要: Copyspace: Where to Write on Images?
- arxiv url: http://arxiv.org/abs/2012.08933v1
- Date: Fri, 4 Dec 2020 01:58:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-23 12:03:11.693428
- Title: Copyspace: Where to Write on Images?
- Title(参考訳): コピースペース:どこに画像を書き込むか?
- Authors: Jessica M. Lundin and Michael Sollami and Brian Lonsdorf and Alan Ross
and Owen Schoppe and David Woodward and S\"onke Rohde
- Abstract要約: 画像上に描画されたテキストの美的パラメータを「コピースペース検出」として検索する。
このワークショップでは、コピースペース検出のためのそのようなアルゴリズムを検証し、Einstein Designerのような生成設計モデルやパイプラインへの応用を実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The placement of text over an image is an important part of producing
high-quality visual designs. Automating this work by determining appropriate
position, orientation, and style for textual elements requires understanding
the contents of the background image. We refer to the search for aesthetic
parameters of text rendered over images as "copyspace detection", noting that
this task is distinct from foreground-background separation. We have developed
solutions using one and two stage object detection methodologies trained on an
expertly labeled data. This workshop will examine such algorithms for copyspace
detection and demonstrate their application in generative design models and
pipelines such as Einstein Designer.
- Abstract(参考訳): 画像上のテキストの配置は、高品質なビジュアルデザインを生み出す上で重要な部分である。
テキスト要素の適切な位置、向き、スタイルを決定することで、この作業を自動化するには、背景画像の内容を理解する必要がある。
画像上に描画されたテキストの美的パラメータを「コピースペース検出」と呼び、このタスクが前景と背景の分離とは異なることを指摘する。
我々は、専門ラベル付きデータに基づいて訓練された1段階と2段階のオブジェクト検出手法を用いて、ソリューションを開発した。
このワークショップでは、コピースペース検出のためのそのようなアルゴリズムを検証し、Einstein Designerのような生成設計モデルやパイプラインへの応用を実証する。
関連論文リスト
- Brush Your Text: Synthesize Any Scene Text on Images via Diffusion Model [31.819060415422353]
Diff-Textは、任意の言語のためのトレーニング不要のシーンテキスト生成フレームワークである。
本手法は, テキスト認識の精度と, 前景と後景のブレンディングの自然性の両方において, 既存の手法よりも優れる。
論文 参考訳(メタデータ) (2023-12-19T15:18:40Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - TextDiffuser: Diffusion Models as Text Painters [118.30923824681642]
我々は、背景に忠実な視覚的に魅力的なテキストで画像を生成することに焦点を当てたTextDiffuserを紹介した。
我々は,OCRアノテーションを用いた最初の大規模テキスト画像データセットであるMARIO-10Mに,1000万の画像テキストペアをコントリビュートする。
テキストプロンプトのみまたはテキストテンプレート画像と併用して高品質なテキスト画像を作成し,テキストによる不完全な画像の再構成を行う,テキストディフューザは柔軟かつ制御可能であることを示す。
論文 参考訳(メタデータ) (2023-05-18T10:16:19Z) - What You See is What You Read? Improving Text-Image Alignment Evaluation [28.722369586165108]
テキスト画像の自動アライメント評価法について検討する。
まず、テキスト・ツー・イメージと画像・ツー・テキスト生成タスクから複数のデータセットにまたがるSeeeTRUEを紹介します。
質問生成モデルと視覚的質問応答モデルに基づくパイプラインを含むパイプラインと、マルチモーダル事前学習モデルの微調整によるエンドツーエンドの分類手法を用いて、アライメントを決定するための2つの自動手法について述べる。
論文 参考訳(メタデータ) (2023-05-17T17:43:38Z) - End-to-end Semantic Object Detection with Cross-Modal Alignment [0.0]
提案文のアライメントはコントラスト学習を用いて行われ、テキストクエリとのセマンティックアライメントを反映した各提案のスコアを生成する。
領域提案ネットワーク(RPN)はオブジェクト提案を生成するために使用され、エンドツーエンドのトレーニングプロセスにより、セマンティックイメージ検索の効率的かつ効果的なソリューションが実現される。
論文 参考訳(メタデータ) (2023-02-10T12:06:18Z) - Aesthetic Text Logo Synthesis via Content-aware Layout Inferring [36.95991028680696]
本稿では,グリフ画像と対応するテキストを入力として取り出し,美的レイアウトを自動的に合成するコンテンツ認識レイアウト生成ネットワークを提案する。
具体的には、文字配置軌跡と合成テキストロゴの描画形状の両方を評価するために、シーケンス識別器と画像識別器を含む二重識別器モジュールを開発する。
約3500のテキストロゴ画像とピクセルレベルのアノテーションからなるTextLogo3Kというデータセットを構築した。
論文 参考訳(メタデータ) (2022-04-06T09:51:50Z) - Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - Towards Efficient Cross-Modal Visual Textual Retrieval using
Transformer-Encoder Deep Features [10.163477961551592]
クロスモーダル検索は、現代の検索エンジンにおいて重要な機能である。
本稿では,画像文検索に焦点をあてる。
我々は最近導入されたTERNアーキテクチャを画像文特徴抽出器として利用する。
論文 参考訳(メタデータ) (2021-06-01T10:11:46Z) - Telling the What while Pointing the Where: Fine-grained Mouse Trace and
Language Supervision for Improved Image Retrieval [60.24860627782486]
きめ細かい画像検索は、しばしば、探しているコンテンツがどこにあるかを表現する能力を必要とする。
本稿では,ユーザが音声自然言語(“What”)とマウスが空のキャンバス(“where”)にトレースした画像を同時に記述する画像検索装置について述べる。
我々のモデルは、この空間的ガイダンスを考慮に入れ、テキストのみの等価システムと比較して、より正確な検索結果を提供する。
論文 参考訳(メタデータ) (2021-02-09T17:54:34Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。