論文の概要: Learning Multimodal Affinities for Textual Editing in Images
- arxiv url: http://arxiv.org/abs/2103.10139v1
- Date: Thu, 18 Mar 2021 10:09:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-20 01:10:34.884173
- Title: Learning Multimodal Affinities for Textual Editing in Images
- Title(参考訳): 画像のテキスト編集におけるマルチモーダル親和性学習
- Authors: Or Perel, Oron Anschel, Omri Ben-Eliezer, Shai Mazor, Hadar
Averbuch-Elor
- Abstract要約: 文書イメージにおけるテキストエンティティ間のマルチモーダルな親和性を学ぶための汎用的な非監視手法を考案する。
次に、これらの学習親和性を使用して、画像内のテキストエンティティを異なるセマンティックグループに自動的にクラスタ化する。
本手法は,幅広い文書にまたがる高度に多様な画像に対して動作可能であり,様々な編集操作に適用可能であることを示す。
- 参考スコア(独自算出の注目度): 18.7418059568887
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nowadays, as cameras are rapidly adopted in our daily routine, images of
documents are becoming both abundant and prevalent. Unlike natural images that
capture physical objects, document-images contain a significant amount of text
with critical semantics and complicated layouts. In this work, we devise a
generic unsupervised technique to learn multimodal affinities between textual
entities in a document-image, considering their visual style, the content of
their underlying text and their geometric context within the image. We then use
these learned affinities to automatically cluster the textual entities in the
image into different semantic groups. The core of our approach is a deep
optimization scheme dedicated for an image provided by the user that detects
and leverages reliable pairwise connections in the multimodal representation of
the textual elements in order to properly learn the affinities. We show that
our technique can operate on highly varying images spanning a wide range of
documents and demonstrate its applicability for various editing operations
manipulating the content, appearance and geometry of the image.
- Abstract(参考訳): 今日では、毎日の日常にカメラが急速に採用されているため、文書の画像は豊富で普及している。
物理的オブジェクトをキャプチャする自然画像とは異なり、文書画像は重要な意味論と複雑なレイアウトを持つ膨大な量のテキストを含んでいる。
本研究では,テキストの視覚的スタイル,基礎となるテキストの内容,画像内の幾何学的コンテキストを考慮し,文書画像中のテキストエンティティ間のマルチモーダル親和性を学習するための汎用的教師なし手法を考案する。
次に、これらの学習親和性を使用して、画像内のテキストエンティティを異なるセマンティックグループに自動的にクラスタ化する。
本手法の核心は,テキスト要素のマルチモーダル表現における信頼性の高いペアワイズ接続を検出・活用し,親和性を適切に学習する,ユーザが提供する画像のための深い最適化手法である。
本手法は,幅広い文書にまたがる高度に多様な画像に対して動作可能であり,画像の内容,外観,形状を操作する様々な編集操作に適用可能であることを示す。
関連論文リスト
- Generating Multimodal Images with GAN: Integrating Text, Image, and Style [7.481665175881685]
GAN(Generative Adversarial Networks)に基づくマルチモーダル画像生成手法を提案する。
この方法は、テキストエンコーダ、画像特徴抽出器、スタイル統合モジュールの設計を含む。
実験結果から,提案手法は複数の公開データセットにまたがって,高い明瞭度と一貫性を有する画像を生成することがわかった。
論文 参考訳(メタデータ) (2025-01-04T02:51:28Z) - Decoupled Textual Embeddings for Customized Image Generation [62.98933630971543]
カスタマイズされたテキスト・ツー・イメージ生成は、ユーザが指定した概念を少数の画像で学習することを目的としている。
既存の方法は、通常、過剰な問題に悩まされ、学習された概念と対象と無関係な情報を絡み合わせる。
フレキシブルなテキスト・ツー・イメージ生成のための不整合概念の埋め込みを学習する新しいアプローチであるDETEXを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:32:10Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z) - Multi-Modal Reasoning Graph for Scene-Text Based Fine-Grained Image
Classification and Retrieval [8.317191999275536]
本稿では,視覚的・テキスト的手がかりの形でマルチモーダルコンテンツを活用することで,微細な画像分類と検索の課題に取り組むことに焦点を当てる。
画像中の有意なオブジェクトとテキスト間の共通意味空間を学習することにより、マルチモーダル推論を行い、関係強化された特徴を得るためにグラフ畳み込みネットワークを用いる。
論文 参考訳(メタデータ) (2020-09-21T12:31:42Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z) - Fine-grained Image Classification and Retrieval by Combining Visual and
Locally Pooled Textual Features [8.317191999275536]
特に、テキストの存在は、コンピュータビジョンタスクの多様性に対処するために使用されるべき強力なガイドコンテンツを提供する。
本稿では,テキスト情報と視覚的手がかりを併用した細粒度分類と画像検索の課題に対処し,両者の本質的な関係を解明する。
論文 参考訳(メタデータ) (2020-01-14T12:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。