論文の概要: Grounded and Controllable Image Completion by Incorporating Lexical
Semantics
- arxiv url: http://arxiv.org/abs/2003.00303v1
- Date: Sat, 29 Feb 2020 16:54:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 20:52:23.042524
- Title: Grounded and Controllable Image Completion by Incorporating Lexical
Semantics
- Title(参考訳): 語彙セマンティックスを組み込んだ接地・制御可能な画像補完
- Authors: Shengyu Zhang, Tan Jiang, Qinghao Huang, Ziqi Tan, Zhou Zhao, Siliang
Tang, Jin Yu, Hongxia Yang, Yi Yang, and Fei Wu
- Abstract要約: Lexical Semantic Image Completion (LSIC)は、芸術、デザイン、遺産保護に潜在的な応用をもたらす可能性がある。
視覚的文脈と語彙的文脈の両方に忠実な結果を生成することを提唱する。
LSICの大きな課題の1つは、ビジュアル・セマンティック・コンテキストの構造をモデル化し整合させることである。
- 参考スコア(独自算出の注目度): 111.47374576372813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present an approach, namely Lexical Semantic Image
Completion (LSIC), that may have potential applications in art, design, and
heritage conservation, among several others. Existing image completion
procedure is highly subjective by considering only visual context, which may
trigger unpredictable results which are plausible but not faithful to a
grounded knowledge. To permit both grounded and controllable completion
process, we advocate generating results faithful to both visual and lexical
semantic context, i.e., the description of leaving holes or blank regions in
the image (e.g., hole description). One major challenge for LSIC comes from
modeling and aligning the structure of visual-semantic context and translating
across different modalities. We term this process as structure completion,
which is realized by multi-grained reasoning blocks in our model. Another
challenge relates to the unimodal biases, which occurs when the model generates
plausible results without using the textual description. This can be true since
the annotated captions for an image are often semantically equivalent in
existing datasets, and thus there is only one paired text for a masked image in
training. We devise an unsupervised unpaired-creation learning path besides the
over-explored paired-reconstruction path, as well as a multi-stage training
strategy to mitigate the insufficiency of labeled data. We conduct extensive
quantitative and qualitative experiments as well as ablation studies, which
reveal the efficacy of our proposed LSIC.
- Abstract(参考訳): 本稿では,美術,意匠,遺産保存に応用可能な手法として,lsic(lexical semantic image completion)を提案する。
既存の画像補完手順は非常に主観的であり、視覚的文脈のみを考えると、予測不可能な結果を引き起こす可能性がある。
接地と制御可能な完了プロセスの両方を可能にするために、視覚的および語彙的意味的文脈、すなわち画像内の抜け穴や空白領域(例えば穴の記述)の両方に忠実な結果を生成することを推奨する。
LSICの大きな課題の1つは、視覚的意味論的文脈の構造をモデル化し整列し、異なるモダリティに変換することである。
この過程を構造完全化と呼び、モデル内の多粒度推論ブロックによって実現します。
もう一つの課題は、モデルがテキスト記述を使わずに妥当な結果を生成するときに発生する一助バイアスである。
これは、画像の注釈付きキャプションが既存のデータセットで意味的に等価であることが多いため、トレーニング中にマスクされた画像に対して1対のテキストしか存在しないため、事実である。
我々は、過剰に探索されたペア・リコンストラクションパスに加えて、ラベル付きデータの不足を軽減するための多段階学習戦略を考案する。
提案するLSICの有効性を明らかにするため, 定量的および定性的実験およびアブレーション実験を行った。
関連論文リスト
- Compositional Entailment Learning for Hyperbolic Vision-Language Models [54.41927525264365]
画像とテキストのペアを超えて、双曲的埋め込みの自然的階層性を完全に活用する方法を示す。
双曲型視覚言語モデルのための構成的包摂学習を提案する。
数百万の画像テキストペアで訓練された双曲型視覚言語モデルに対する経験的評価は、提案手法が従来のユークリッドCLIP学習より優れていることを示している。
論文 参考訳(メタデータ) (2024-10-09T14:12:50Z) - Analogist: Out-of-the-box Visual In-Context Learning with Image Diffusion Model [25.47573567479831]
本稿では,視覚とテキストの両方のプロンプト技術を利用した新しい推論に基づく視覚的ICL手法を提案する。
提案手法はアウト・オブ・ボックスであり,微調整や最適化は不要である。
論文 参考訳(メタデータ) (2024-05-16T17:59:21Z) - Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - Exploring Semantic Consistency in Unpaired Image Translation to Generate
Data for Surgical Applications [1.8011391924021904]
本研究では,外科的応用における適切なデータを生成するための画像翻訳手法を実験的に検討した。
構造相似性損失と対照的学習の単純な組み合わせが、最も有望な結果をもたらすことがわかった。
論文 参考訳(メタデータ) (2023-09-06T14:43:22Z) - Vocabulary-free Image Classification [75.38039557783414]
VIC(Vocabulary-free Image Classification)と呼ばれる新しいタスクを定式化する。
VICは、既知の語彙を必要とせずに、制約のない言語によって引き起こされる意味空間に存在するクラスを入力画像に割り当てることを目的としている。
CaSEDは、事前訓練された視覚言語モデルと外部視覚言語データベースを利用して、VICをトレーニング不要に対処する手法である。
論文 参考訳(メタデータ) (2023-06-01T17:19:43Z) - Unpaired Translation from Semantic Label Maps to Images by Leveraging
Domain-Specific Simulations [11.638139969660266]
シミュレーションされたラベルマップからフォトリアリスティックな画像を生成するためのコントラスト学習フレームワークを提案する。
提案手法は,現実的でシーンの正確な翻訳を生成する。
論文 参考訳(メタデータ) (2023-02-21T14:36:18Z) - More Control for Free! Image Synthesis with Semantic Diffusion Guidance [79.88929906247695]
制御可能な画像合成モデルは、サンプル画像からテキスト命令やガイダンスに基づいて多様な画像を作成することができる。
セマンティックな拡散誘導のための新しい統合フレームワークを導入し、言語や画像の誘導、あるいはその両方を可能にした。
FFHQとLSUNのデータセットで実験を行い、微細なテキスト誘導画像合成結果を示す。
論文 参考訳(メタデータ) (2021-12-10T18:55:50Z) - USIS: Unsupervised Semantic Image Synthesis [9.613134538472801]
セマンティック画像合成(USIS)のための新しい教師なしパラダイムを提案する。
USISは、自己教師付きセグメンテーションロスを使用して、視覚的に分離可能なセグメンテーションクラスで画像を出力することを学ぶ。
実画像の色とテクスチャの分布を高周波数情報を失うことなく一致させるため,ウェーブレットを用いた識別手法を提案する。
論文 参考訳(メタデータ) (2021-09-29T20:48:41Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。