論文の概要: Let Me Choose: From Verbal Context to Font Selection
- arxiv url: http://arxiv.org/abs/2005.01151v1
- Date: Sun, 3 May 2020 17:36:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 06:15:32.783370
- Title: Let Me Choose: From Verbal Context to Font Selection
- Title(参考訳): Let Me Choose: Verbal Context から Font Selection へ
- Authors: Amirreza Shirani, Franck Dernoncourt, Jose Echevarria, Paul Asente,
Nedim Lipka and Thamar Solorio
- Abstract要約: フォントの視覚的属性と典型的に適用されるテキストの言語的文脈との関係を学習することを目的としている。
我々は、クラウドソーシングを通じてラベル付けされたソーシャルメディア投稿や広告で、さまざまなトピックの例を含む、新しいデータセットを紹介した。
- 参考スコア(独自算出の注目度): 50.293897197235296
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we aim to learn associations between visual attributes of
fonts and the verbal context of the texts they are typically applied to.
Compared to related work leveraging the surrounding visual context, we choose
to focus only on the input text as this can enable new applications for which
the text is the only visual element in the document. We introduce a new
dataset, containing examples of different topics in social media posts and ads,
labeled through crowd-sourcing. Due to the subjective nature of the task,
multiple fonts might be perceived as acceptable for an input text, which makes
this problem challenging. To this end, we investigate different end-to-end
models to learn label distributions on crowd-sourced data and capture
inter-subjectivity across all annotations.
- Abstract(参考訳): 本稿では,フォントの視覚的属性と典型的に適用されるテキストの言語的文脈との関係を学習することを目的とする。
周囲の視覚的コンテキストを活用した関連作業と比較すると、テキストがドキュメントの唯一のビジュアル要素である新しいアプリケーションを可能にするため、入力テキストのみに注目することを選択します。
クラウドソーシングを通じてラベル付けされたソーシャルメディア投稿や広告で、さまざまなトピックの例を含む新しいデータセットを導入する。
タスクの主観的な性質のため、複数のフォントが入力テキストに受け入れられる可能性があるため、この問題は困難である。
そこで本研究では,クラウドソースデータからラベルの分布を学習し,すべてのアノテーションを対象とするオブジェクト間比のキャプチャを行う。
関連論文リスト
- Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Focus! Relevant and Sufficient Context Selection for News Image
Captioning [69.36678144800936]
News Image Captioningは、ニュース記事から追加のコンテキストを活用することで、画像を記述する必要がある。
本稿では,事前学習された視覚・言語検索モデルであるCLIPを用いて,ニュース記事中の視覚的根拠を持つエンティティをローカライズすることを提案する。
我々の実験は、記事からより良いコンテキストを選択するだけで、既存のモデルの性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2022-12-01T20:00:27Z) - Contrastive Graph Multimodal Model for Text Classification in Videos [9.218562155255233]
我々は、マルチモーダル情報を融合させることで、ビデオテキスト分類の新しい課題に最初に対処する。
レイアウト情報を明示的に抽出することで特徴表現を強化するために、相関ネットと呼ばれる特定のモジュールを調整します。
我々は、ビデオテキスト認識および分類アプリケーションの構築と評価を目的とした、TI-Newsと呼ばれるニュースドメインから、明確に定義された新しい産業データセットを構築した。
論文 参考訳(メタデータ) (2022-06-06T04:06:21Z) - TextStyleBrush: Transfer of Text Aesthetics from a Single Example [16.29689649632619]
本稿では,その外観のあらゆる面からテキスト画像の内容を切り離すための新しいアプローチを提案する。
我々はこの混乱を自己管理的に学ぶ。
以前は特殊な手法で処理されていた異なるテキスト領域で結果を示す。
論文 参考訳(メタデータ) (2021-06-15T19:28:49Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z) - Multi-Modal Reasoning Graph for Scene-Text Based Fine-Grained Image
Classification and Retrieval [8.317191999275536]
本稿では,視覚的・テキスト的手がかりの形でマルチモーダルコンテンツを活用することで,微細な画像分類と検索の課題に取り組むことに焦点を当てる。
画像中の有意なオブジェクトとテキスト間の共通意味空間を学習することにより、マルチモーダル推論を行い、関係強化された特徴を得るためにグラフ畳み込みネットワークを用いる。
論文 参考訳(メタデータ) (2020-09-21T12:31:42Z) - Adaptive Text Recognition through Visual Matching [86.40870804449737]
言語における文字の反復性を利用した新しいモデルを提案する。
これにより、テキスト認識を形状整合問題に変換する。
従来のアーキテクチャでは、高価な再トレーニングなしには解決できない課題に対処できることが示されています。
論文 参考訳(メタデータ) (2020-09-14T17:48:53Z) - One-shot Text Field Labeling using Attention and Belief Propagation for
Structure Information Extraction [28.687815600404264]
ワンショットテキストフィールドラベリングのための新しいエンドツーエンドトレーニング可能なアプローチを提案する。
これらの問題を緩和するため、我々はワンショットテキストフィールドラベリングのための新しいエンドツーエンドのトレーニング可能なアプローチを提案した。
実世界のワンショットフィールドラベリングデータセットを収集し,注釈を付けた。
論文 参考訳(メタデータ) (2020-09-09T08:11:34Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。