論文の概要: MOC-GAN: Mixing Objects and Captions to Generate Realistic Images
- arxiv url: http://arxiv.org/abs/2106.03128v1
- Date: Sun, 6 Jun 2021 14:04:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 18:06:14.766521
- Title: MOC-GAN: Mixing Objects and Captions to Generate Realistic Images
- Title(参考訳): MOC-GAN:リアル画像を生成するためのオブジェクトとキャプションの混合
- Authors: Tao Ma, Yikang Li
- Abstract要約: より合理的な設定を導入し、オブジェクトやキャプションからリアルなイメージを生成します。
この設定では、オブジェクトはターゲットイメージにおける重要な役割を明示的に定義し、キャプションは、そのリッチな属性とコネクションを暗黙的に記述する。
2つのモードの入力を混合して現実的な画像を生成するMOC-GANを提案する。
- 参考スコア(独自算出の注目度): 21.240099965546637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating images with conditional descriptions gains increasing interests in
recent years. However, existing conditional inputs are suffering from either
unstructured forms (captions) or limited information and expensive labeling
(scene graphs). For a targeted scene, the core items, objects, are usually
definite while their interactions are flexible and hard to clearly define.
Thus, we introduce a more rational setting, generating a realistic image from
the objects and captions. Under this setting, objects explicitly define the
critical roles in the targeted images and captions implicitly describe their
rich attributes and connections. Correspondingly, a MOC-GAN is proposed to mix
the inputs of two modalities to generate realistic images. It firstly infers
the implicit relations between object pairs from the captions to build a
hidden-state scene graph. So a multi-layer representation containing objects,
relations and captions is constructed, where the scene graph provides the
structures of the scene and the caption provides the image-level guidance. Then
a cascaded attentive generative network is designed to coarse-to-fine generate
phrase patch by paying attention to the most relevant words in the caption. In
addition, a phrase-wise DAMSM is proposed to better supervise the fine-grained
phrase-patch consistency. On COCO dataset, our method outperforms the
state-of-the-art methods on both Inception Score and FID while maintaining high
visual quality. Extensive experiments demonstrate the unique features of our
proposed method.
- Abstract(参考訳): 近年,条件付き画像の生成への関心が高まっている。
しかし、既存の条件入力は、構造化されていない形式(キャプション)または限られた情報と高価なラベリング(シーングラフ)に悩まされている。
ターゲットとなるシーンでは、中核となるアイテムやオブジェクトは通常明確であり、相互作用は柔軟で明確に定義するのは難しい。
そこで、より合理的な設定を導入し、オブジェクトやキャプションから現実的な画像を生成する。
この設定では、オブジェクトはターゲット画像における重要な役割を明示的に定義し、キャプションはそのリッチな属性とコネクションを暗黙的に記述する。
それに対応して、2つのモードの入力を混合して現実的な画像を生成するMOC-GANを提案する。
まず、キャプションからオブジェクトペア間の暗黙の関係を推論し、隠れ状態のシーングラフを構築する。
そのため、シーングラフがシーンの構造を提供し、キャプションが画像レベルのガイダンスを提供する、オブジェクト、関係、キャプションを含む多層表現が構築される。
そして、キャプション内の最も関連性の高い単語に注意を払って、フレーズパッチを粗大に生成するカスケード注意生成ネットワークを設計する。
さらに, きめ細かいフレーズ・パッチ整合性を改善するために, DAMSMというフレーズワイドなDAMSMを提案する。
COCOデータセットでは、高い視覚的品質を維持しつつ、インセプションスコアとFIDの両方で最先端の手法より優れている。
広範な実験により,提案手法の特徴を実証した。
関連論文リスト
- StableSemantics: A Synthetic Language-Vision Dataset of Semantic Representations in Naturalistic Images [5.529078451095096]
視覚シーンの意味を理解することはコンピュータビジョンの基本的な課題である。
テキストと画像のフレームワークの最近の進歩は、自然のシーン統計を暗黙的に捉えるモデルにつながっている。
提案するStableSemanticsは、224万件の人為的なプロンプト、処理された自然言語キャプション、200万以上の合成画像、そして個々の名詞のチャンクに対応する1000万のアテンションマップからなるデータセットである。
論文 参考訳(メタデータ) (2024-06-19T17:59:40Z) - Top-Down Framework for Weakly-supervised Grounded Image Captioning [19.00510117145054]
弱教師付き接地画像キャプションは、バウンディングボックスの監督を使わずに、入力画像中のキャプションとグラウンド(局所化)予測対象語を生成することを目的としている。
本稿では,RGB画像を直接入力として,トップダウン画像レベルでのキャプションとグラウンド実行を行う一段弱教師付き接地キャプタを提案する。
論文 参考訳(メタデータ) (2023-06-13T01:42:18Z) - FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph
Parsing [66.70054075041487]
画像キャプションをシーングラフに変換する既存のシーングラフは、しばしば2種類のエラーに悩まされる。
まず、生成されたシーングラフはキャプションや対応する画像の真の意味を捉えず、忠実さの欠如をもたらす。
第二に、生成されたシーングラフは一貫性が高く、同じセマンティクスは異なるアノテーションで表される。
論文 参考訳(メタデータ) (2023-05-27T15:38:31Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Consensus Graph Representation Learning for Better Grounded Image
Captioning [48.208119537050166]
本稿では,接地画像キャプションのためのConsensus Rraph Representation Learning framework(CGRL)を提案する。
Flickr30k Entitiesデータセットにおける対象幻覚(-9% CHAIRi)の顕著な減少とともに,本モデルの有効性を検証した。
論文 参考訳(メタデータ) (2021-12-02T04:17:01Z) - DAE-GAN: Dynamic Aspect-aware GAN for Text-to-Image Synthesis [55.788772366325105]
本研究では,文レベル,単語レベル,アスペクトレベルを含む複数の粒度からテキスト情報を包括的に表現する動的アスペクト・アワーン(DAE-GAN)を提案する。
人間の学習行動にインスパイアされた画像改善のためのADR(Aspect-aware Dynamic Re-drawer)を開発し,AGR(Attended Global Refinement)モジュールとALR(Aspect-aware Local Refinement)モジュールを交互に使用する。
論文 参考訳(メタデータ) (2021-08-27T07:20:34Z) - Cross-Modal Graph with Meta Concepts for Video Captioning [101.97397967958722]
ビデオキャプションのためのメタ概念を用いたクロスモーダルグラフ(CMG)を提案する。
ビデオキャプションで有用な意味概念を網羅するために、テキスト記述のための対応する視覚領域を弱く学習する。
我々は、予測された述語を用いて、全体的ビデオレベルおよび局所的フレームレベルのビデオグラフを構築し、ビデオシーケンス構造をモデル化する。
論文 参考訳(メタデータ) (2021-08-14T04:00:42Z) - Exploring Semantic Relationships for Unpaired Image Captioning [40.401322131624866]
視覚領域と言語領域を高レベルな意味情報でブリッジすることで、不適切な画像キャプションを実現する。
画像の理解を深めるため,セマンティック・リレーション・エクスプローラーを提案する。
提案手法は,CIDErのスコアが8%に向上したペア設定下で,5つの強いベースラインを向上する。
論文 参考訳(メタデータ) (2021-06-20T09:10:11Z) - Exploring Explicit and Implicit Visual Relationships for Image
Captioning [11.82805641934772]
本稿では,画像キャプションのための領域レベルの表現を豊かにするために,明示的かつ暗黙的な視覚関係を探索する。
具体的には、オブジェクトペア上にセマンティックグラフを構築し、ゲートグラフ畳み込みネットワーク(Gated GCN)を利用して、近隣住民の情報を選択的に集約する。
暗黙的に、我々は変圧器から領域ベースの双方向エンコーダ表現を介して検出されたオブジェクト間のグローバルな相互作用を描画する。
論文 参考訳(メタデータ) (2021-05-06T01:47:51Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。