Fugu-MT 論文翻訳(概要): Copyspace: Where to Write on Images?

論文の概要: Copyspace: Where to Write on Images?

arxiv url: http://arxiv.org/abs/2012.08933v1
Date: Fri, 4 Dec 2020 01:58:39 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-23 12:03:11.693428
Title: Copyspace: Where to Write on Images?
Title（参考訳）: コピースペース:どこに画像を書き込むか?
Authors: Jessica M. Lundin and Michael Sollami and Brian Lonsdorf and Alan Ross and Owen Schoppe and David Woodward and S\"onke Rohde
Abstract要約: 画像上に描画されたテキストの美的パラメータを「コピースペース検出」として検索する。このワークショップでは、コピースペース検出のためのそのようなアルゴリズムを検証し、Einstein Designerのような生成設計モデルやパイプラインへの応用を実証する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The placement of text over an image is an important part of producing high-quality visual designs. Automating this work by determining appropriate position, orientation, and style for textual elements requires understanding the contents of the background image. We refer to the search for aesthetic parameters of text rendered over images as "copyspace detection", noting that this task is distinct from foreground-background separation. We have developed solutions using one and two stage object detection methodologies trained on an expertly labeled data. This workshop will examine such algorithms for copyspace detection and demonstrate their application in generative design models and pipelines such as Einstein Designer.
Abstract（参考訳）: 画像上のテキストの配置は、高品質なビジュアルデザインを生み出す上で重要な部分である。テキスト要素の適切な位置、向き、スタイルを決定することで、この作業を自動化するには、背景画像の内容を理解する必要がある。画像上に描画されたテキストの美的パラメータを「コピースペース検出」と呼び、このタスクが前景と背景の分離とは異なることを指摘する。我々は、専門ラベル付きデータに基づいて訓練された1段階と2段階のオブジェクト検出手法を用いて、ソリューションを開発した。このワークショップでは、コピースペース検出のためのそのようなアルゴリズムを検証し、Einstein Designerのような生成設計モデルやパイプラインへの応用を実証する。

関連論文リスト

GroundingBooth: Grounding Text-to-Image Customization [17.185571339157075]
我々は、前景と背景オブジェクトの両方にゼロショットのインスタンスレベルの空間的グラウンドを実現するフレームワークであるGarthingBoothを紹介した。提案したテキスト画像グラウンドモジュールとマスク付きクロスアテンション層は、正確なレイアウトアライメントとアイデンティティ保存の両方でパーソナライズされた画像を生成することができる。
論文参考訳（メタデータ） (2024-09-13T03:40:58Z)
Choose What You Need: Disentangled Representation Learning for Scene Text Recognition, Removal and Editing [47.421888361871254]
シーンテキスト画像は、スタイル情報(フォント、背景)だけでなく、コンテンツ情報(文字、テクスチャ)も含む。従来の表現学習手法では、全てのタスクに密結合した特徴を使い、結果として準最適性能が得られる。本稿では,適応性向上のための2種類の特徴を両立させることを目的としたDAR(Disentangled Representation Learning framework)を提案する。
論文参考訳（メタデータ） (2024-05-07T15:00:11Z)
Locate, Assign, Refine: Taming Customized Image Inpainting with Text-Subject Guidance [17.251982243534144]
LAR-Genは、マスクされたシーンイメージのシームレスなインペイントを可能にする、画像インペイントのための新しいアプローチである。提案手法は,主観的アイデンティティの保存と局所的セマンティック・コヒーレンスを確保するために,粗大かつきめの手法を採用する。実験と様々な応用シナリオは、アイデンティティ保存とテキストセマンティック一貫性の両方の観点から、LAR-Genの優位性を示している。
論文参考訳（メタデータ） (2024-03-28T16:07:55Z)
Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [11.798006331912056]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文参考訳（メタデータ） (2023-07-18T08:23:46Z)
TextDiffuser: Diffusion Models as Text Painters [118.30923824681642]
我々は、背景に忠実な視覚的に魅力的なテキストで画像を生成することに焦点を当てたTextDiffuserを紹介した。我々は,OCRアノテーションを用いた最初の大規模テキスト画像データセットであるMARIO-10Mに,1000万の画像テキストペアをコントリビュートする。テキストプロンプトのみまたはテキストテンプレート画像と併用して高品質なテキスト画像を作成し,テキストによる不完全な画像の再構成を行う,テキストディフューザは柔軟かつ制御可能であることを示す。
論文参考訳（メタデータ） (2023-05-18T10:16:19Z)
End-to-end Semantic Object Detection with Cross-Modal Alignment [0.0]
提案文のアライメントはコントラスト学習を用いて行われ、テキストクエリとのセマンティックアライメントを反映した各提案のスコアを生成する。領域提案ネットワーク(RPN)はオブジェクト提案を生成するために使用され、エンドツーエンドのトレーニングプロセスにより、セマンティックイメージ検索の効率的かつ効果的なソリューションが実現される。
論文参考訳（メタデータ） (2023-02-10T12:06:18Z)
Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文参考訳（メタデータ） (2022-03-28T23:35:45Z)
Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文参考訳（メタデータ） (2021-10-29T16:51:16Z)
Towards Efficient Cross-Modal Visual Textual Retrieval using Transformer-Encoder Deep Features [10.163477961551592]
クロスモーダル検索は、現代の検索エンジンにおいて重要な機能である。本稿では,画像文検索に焦点をあてる。我々は最近導入されたTERNアーキテクチャを画像文特徴抽出器として利用する。
論文参考訳（メタデータ） (2021-06-01T10:11:46Z)
Telling the What while Pointing the Where: Fine-grained Mouse Trace and Language Supervision for Improved Image Retrieval [60.24860627782486]
きめ細かい画像検索は、しばしば、探しているコンテンツがどこにあるかを表現する能力を必要とする。本稿では,ユーザが音声自然言語(“What”)とマウスが空のキャンバス(“where”)にトレースした画像を同時に記述する画像検索装置について述べる。我々のモデルは、この空間的ガイダンスを考慮に入れ、テキストのみの等価システムと比較して、より正確な検索結果を提供する。
論文参考訳（メタデータ） (2021-02-09T17:54:34Z)
Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文参考訳（メタデータ） (2020-09-30T10:59:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。