論文の概要: ReVersion: Diffusion-Based Relation Inversion from Images
- arxiv url: http://arxiv.org/abs/2303.13495v1
- Date: Thu, 23 Mar 2023 17:56:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 12:52:44.113921
- Title: ReVersion: Diffusion-Based Relation Inversion from Images
- Title(参考訳): ReVersion: 画像からの拡散に基づく関係インバージョン
- Authors: Ziqi Huang, Tianxing Wu, Yuming Jiang, Kelvin C.K. Chan, Ziwei Liu
- Abstract要約: ReVersion for the Relation Inversion task, which aimed to learn a specific relationship from exemplar image。
我々は、凍結した事前学習されたテキスト-画像拡散モデルから関係のプロンプトを学習する。
学習した関係プロンプトを適用して、新しいオブジェクト、バックグラウンド、スタイルで関係固有の画像を生成する。
- 参考スコア(独自算出の注目度): 31.61407278439991
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models gain increasing popularity for their generative
capabilities. Recently, there have been surging needs to generate customized
images by inverting diffusion models from exemplar images. However, existing
inversion methods mainly focus on capturing object appearances. How to invert
object relations, another important pillar in the visual world, remains
unexplored. In this work, we propose ReVersion for the Relation Inversion task,
which aims to learn a specific relation (represented as "relation prompt") from
exemplar images. Specifically, we learn a relation prompt from a frozen
pre-trained text-to-image diffusion model. The learned relation prompt can then
be applied to generate relation-specific images with new objects, backgrounds,
and styles. Our key insight is the "preposition prior" - real-world relation
prompts can be sparsely activated upon a set of basis prepositional words.
Specifically, we propose a novel relation-steering contrastive learning scheme
to impose two critical properties of the relation prompt: 1) The relation
prompt should capture the interaction between objects, enforced by the
preposition prior. 2) The relation prompt should be disentangled away from
object appearances. We further devise relation-focal importance sampling to
emphasize high-level interactions over low-level appearances (e.g., texture,
color). To comprehensively evaluate this new task, we contribute ReVersion
Benchmark, which provides various exemplar images with diverse relations.
Extensive experiments validate the superiority of our approach over existing
methods across a wide range of visual relations.
- Abstract(参考訳): 拡散モデルは、その生成能力で人気が高まる。
近年,exemplar画像からの拡散モデルを反転させることで,カスタマイズした画像を生成する必要性が高まっている。
しかし、既存の反転法は主に物体の出現を捉えることに焦点を当てている。
視覚の世界におけるもう一つの重要な柱であるオブジェクト関係を逆転する方法は、まだ解明されていない。
本研究では,関係反転タスクのリバージョンを提案する。このタスクは,例示画像から特定の関係(「関係プロンプト」として表現される)を学習することを目的としている。
具体的には、凍結学習されたテキストから画像への拡散モデルから関係プロンプトを学習する。
学習された関係プロンプトは、新しいオブジェクト、背景、スタイルで関係特有のイメージを生成するために適用できる。
私たちの重要な洞察は、"preposition prior" - 実世界の関係プロンプトは、基底前置詞のセットでスパースに活性化される。
具体的には、関係学習の2つの重要な特性を課す新しい関係学習手法を提案する。
1) 関係プロンプトは,前置詞によって強制されるオブジェクト間のインタラクションをキャプチャする必要がある。
2) 関係プロンプトは,オブジェクトの外観から切り離されるべきである。
さらに,低レベルの外観(テクスチャ,色など)におけるハイレベルなインタラクションを強調するために,関係・焦点重要度サンプリングを考案する。
本稿では,この課題を総合的に評価するために,多種多様な類似画像を提供するReVersion Benchmarkを提案する。
広範囲の視覚的関係において,既存手法に対するアプローチの優位性を検証した。
関連論文リスト
- Visual Commonsense based Heterogeneous Graph Contrastive Learning [79.22206720896664]
視覚的推論タスクをより良く仕上げるための異種グラフコントラスト学習法を提案する。
本手法はプラグイン・アンド・プレイ方式として設計されており,多種多様な代表手法と迅速かつ容易に組み合わせることができる。
論文 参考訳(メタデータ) (2023-11-11T12:01:18Z) - Dual Relation Alignment for Composed Image Retrieval [24.812654620141778]
合成画像検索における2種類の関係性の存在を論じる。
明示的な関係は、参照画像と補完テキストターゲット画像に関連する。
本稿では,合成画像検索のための新たな枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-05T12:16:14Z) - Reverse Stable Diffusion: What prompt was used to generate this image? [80.82832715884597]
生成拡散モデルにより生成された画像からテキストプロンプトを予測する新しいタスクを導入する。
本稿では,複数ラベルの語彙分類を目的とし,協調的即時回帰と複数ラベルの語彙分類からなる新しい学習フレームワークを提案する。
我々はDiffusionDBデータセットの実験を行い、安定拡散によって生成された画像からテキストプロンプトを予測する。
論文 参考訳(メタデータ) (2023-08-02T23:39:29Z) - ARTEMIS: Attention-based Retrieval with Text-Explicit Matching and
Implicit Similarity [16.550790981646276]
現在のアプローチでは、クエリの2つの要素のそれぞれの特徴をひとつの表現にまとめています。
本研究の目的は,テキスト・ツー・イメージ検索と画像・ツー・イメージ検索という,慣れ親しんだ2つのフレームワークのプリズムを通じてタスクに新たな光を当てることである。
論文 参考訳(メタデータ) (2022-03-15T17:29:20Z) - Object-aware Contrastive Learning for Debiased Scene Representation [74.30741492814327]
オブジェクトを自己教師型でローカライズする,オブジェクト認識型コントラスト学習フレームワークを開発した。
また、コントラCAM、オブジェクト認識型乱作、背景混合に基づく2つのデータ拡張を導入し、コントラスト型自己教師型学習における文脈バイアスと背景バイアスを低減した。
論文 参考訳(メタデータ) (2021-07-30T19:24:07Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Semantic Relation Reasoning for Shot-Stable Few-Shot Object Detection [33.25064323136447]
フェーショット物体検出は、実世界のデータの固有の長尾分布のために、必要かつ長続きする問題である。
この研究は、新しい物体検出の学習に明確な関係推論を導入する。
実験では、SRR-FSDは、より高いショットで競争力のある結果を達成することができ、さらに重要なことは、より低い明示的なショットと暗黙的なショットの両方で、大幅にパフォーマンスが向上します。
論文 参考訳(メタデータ) (2021-03-02T18:04:38Z) - Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-21T04:03:22Z) - ORD: Object Relationship Discovery for Visual Dialogue Generation [60.471670447176656]
視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。
階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。
実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2020-06-15T12:25:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。