論文の概要: VICTR: Visual Information Captured Text Representation for Text-to-Image
Multimodal Tasks
- arxiv url: http://arxiv.org/abs/2010.03182v3
- Date: Sun, 25 Oct 2020 05:21:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 22:19:52.783545
- Title: VICTR: Visual Information Captured Text Representation for Text-to-Image
Multimodal Tasks
- Title(参考訳): VICTR:テキスト間マルチモーダルタスクのための視覚情報キャプチャテキスト表現
- Authors: Soyeon Caren Han, Siqu Long, Siwen Luo, Kunze Wang, Josiah Poon
- Abstract要約: テキスト入力からオブジェクトのリッチな視覚的意味情報をキャプチャするマルチモーダルタスクであるVICTRを提案する。
本稿では,シーングラフとそれに対応する幾何学的関係情報をグラフ畳み込みネットワークを用いて学習する。
テキスト表現は、単語レベルと文レベルの埋め込みで集約され、視覚的文脈表現と文表現の両方を生成する。
- 参考スコア(独自算出の注目度): 5.840117063192334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image multimodal tasks, generating/retrieving an image from a given
text description, are extremely challenging tasks since raw text descriptions
cover quite limited information in order to fully describe visually realistic
images. We propose a new visual contextual text representation for
text-to-image multimodal tasks, VICTR, which captures rich visual semantic
information of objects from the text input. First, we use the text description
as initial input and conduct dependency parsing to extract the syntactic
structure and analyse the semantic aspect, including object quantities, to
extract the scene graph. Then, we train the extracted objects, attributes, and
relations in the scene graph and the corresponding geometric relation
information using Graph Convolutional Networks, and it generates text
representation which integrates textual and visual semantic information. The
text representation is aggregated with word-level and sentence-level embedding
to generate both visual contextual word and sentence representation. For the
evaluation, we attached VICTR to the state-of-the-art models in text-to-image
generation.VICTR is easily added to existing models and improves across both
quantitative and qualitative aspects.
- Abstract(参考訳): テキスト・ツー・イメージのマルチモーダルなタスクは、与えられたテキスト記述から画像を生成し、取り出すという非常に難しいタスクである。
本稿では、テキスト入力からオブジェクトのリッチな視覚的意味情報をキャプチャする、テキストから画像へのマルチモーダルタスクのための新しいビジュアルコンテクストテキスト表現victrを提案する。
まず、テキスト記述を初期入力とし、依存関係解析を行い、構文構造を抽出し、オブジェクト量を含む意味的側面を分析してシーングラフを抽出する。
次に、グラフ畳み込みネットワークを用いて、シーングラフ内の抽出されたオブジェクト、属性、関係と対応する幾何学関係情報を訓練し、テキストおよび視覚的意味情報を統合したテキスト表現を生成する。
テキスト表現は、単語レベルと文レベルの埋め込みで集約され、視覚的文脈表現と文表現の両方を生成する。
評価のために,既存のモデルにVICTRを容易に付加し,量的・質的な側面の両面で改善する。
関連論文リスト
- LLM Blueprint: Enabling Text-to-Image Generation with Complex and
Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。
本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。
複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文 参考訳(メタデータ) (2023-10-16T17:57:37Z) - Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [11.798006331912056]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。
本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - Learning the Visualness of Text Using Large Vision-Language Models [42.75864384249245]
視覚的テキストは人の心の中のイメージを誘発するが、視覚的でないテキストはそれを起こさない。
テキスト内の視覚を自動的に検出する手法により、テキスト・ツー・イメージ検索と生成モデルにより、関連する画像でテキストを拡張できる。
我々は,3,620の英語文のデータセットと,複数のアノテータによって提供されるその視覚性スコアをキュレートする。
論文 参考訳(メタデータ) (2023-05-11T17:45:16Z) - BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid
Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。
本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文 参考訳(メタデータ) (2022-07-09T07:14:44Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - DAE-GAN: Dynamic Aspect-aware GAN for Text-to-Image Synthesis [55.788772366325105]
本研究では,文レベル,単語レベル,アスペクトレベルを含む複数の粒度からテキスト情報を包括的に表現する動的アスペクト・アワーン(DAE-GAN)を提案する。
人間の学習行動にインスパイアされた画像改善のためのADR(Aspect-aware Dynamic Re-drawer)を開発し,AGR(Attended Global Refinement)モジュールとALR(Aspect-aware Local Refinement)モジュールを交互に使用する。
論文 参考訳(メタデータ) (2021-08-27T07:20:34Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Multi-Modal Reasoning Graph for Scene-Text Based Fine-Grained Image
Classification and Retrieval [8.317191999275536]
本稿では,視覚的・テキスト的手がかりの形でマルチモーダルコンテンツを活用することで,微細な画像分類と検索の課題に取り組むことに焦点を当てる。
画像中の有意なオブジェクトとテキスト間の共通意味空間を学習することにより、マルチモーダル推論を行い、関係強化された特徴を得るためにグラフ畳み込みネットワークを用いる。
論文 参考訳(メタデータ) (2020-09-21T12:31:42Z) - TextCaps: a Dataset for Image Captioning with Reading Comprehension [56.89608505010651]
テキストは人間環境において一様であり、環境を理解するためにしばしば重要である。
画像のコンテキストにおけるテキストの理解方法を研究するために,新しいデータセットであるTextCapsを,28k画像用の145kキャプションで収集した。
我々のデータセットは、テキストを認識し、それをその視覚的コンテキストに関連付け、テキストのどの部分をコピーするか、言い換えるかを決定するモデルに挑戦する。
論文 参考訳(メタデータ) (2020-03-24T02:38:35Z) - Fine-grained Image Classification and Retrieval by Combining Visual and
Locally Pooled Textual Features [8.317191999275536]
特に、テキストの存在は、コンピュータビジョンタスクの多様性に対処するために使用されるべき強力なガイドコンテンツを提供する。
本稿では,テキスト情報と視覚的手がかりを併用した細粒度分類と画像検索の課題に対処し,両者の本質的な関係を解明する。
論文 参考訳(メタデータ) (2020-01-14T12:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。