論文の概要: ReVersion: Diffusion-Based Relation Inversion from Images
- arxiv url: http://arxiv.org/abs/2303.13495v1
- Date: Thu, 23 Mar 2023 17:56:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 12:52:44.113921
- Title: ReVersion: Diffusion-Based Relation Inversion from Images
- Title(参考訳): ReVersion: 画像からの拡散に基づく関係インバージョン
- Authors: Ziqi Huang, Tianxing Wu, Yuming Jiang, Kelvin C.K. Chan, Ziwei Liu
- Abstract要約: ReVersion for the Relation Inversion task, which aimed to learn a specific relationship from exemplar image。
我々は、凍結した事前学習されたテキスト-画像拡散モデルから関係のプロンプトを学習する。
学習した関係プロンプトを適用して、新しいオブジェクト、バックグラウンド、スタイルで関係固有の画像を生成する。
- 参考スコア(独自算出の注目度): 31.61407278439991
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models gain increasing popularity for their generative
capabilities. Recently, there have been surging needs to generate customized
images by inverting diffusion models from exemplar images. However, existing
inversion methods mainly focus on capturing object appearances. How to invert
object relations, another important pillar in the visual world, remains
unexplored. In this work, we propose ReVersion for the Relation Inversion task,
which aims to learn a specific relation (represented as "relation prompt") from
exemplar images. Specifically, we learn a relation prompt from a frozen
pre-trained text-to-image diffusion model. The learned relation prompt can then
be applied to generate relation-specific images with new objects, backgrounds,
and styles. Our key insight is the "preposition prior" - real-world relation
prompts can be sparsely activated upon a set of basis prepositional words.
Specifically, we propose a novel relation-steering contrastive learning scheme
to impose two critical properties of the relation prompt: 1) The relation
prompt should capture the interaction between objects, enforced by the
preposition prior. 2) The relation prompt should be disentangled away from
object appearances. We further devise relation-focal importance sampling to
emphasize high-level interactions over low-level appearances (e.g., texture,
color). To comprehensively evaluate this new task, we contribute ReVersion
Benchmark, which provides various exemplar images with diverse relations.
Extensive experiments validate the superiority of our approach over existing
methods across a wide range of visual relations.
- Abstract(参考訳): 拡散モデルは、その生成能力で人気が高まる。
近年,exemplar画像からの拡散モデルを反転させることで,カスタマイズした画像を生成する必要性が高まっている。
しかし、既存の反転法は主に物体の出現を捉えることに焦点を当てている。
視覚の世界におけるもう一つの重要な柱であるオブジェクト関係を逆転する方法は、まだ解明されていない。
本研究では,関係反転タスクのリバージョンを提案する。このタスクは,例示画像から特定の関係(「関係プロンプト」として表現される)を学習することを目的としている。
具体的には、凍結学習されたテキストから画像への拡散モデルから関係プロンプトを学習する。
学習された関係プロンプトは、新しいオブジェクト、背景、スタイルで関係特有のイメージを生成するために適用できる。
私たちの重要な洞察は、"preposition prior" - 実世界の関係プロンプトは、基底前置詞のセットでスパースに活性化される。
具体的には、関係学習の2つの重要な特性を課す新しい関係学習手法を提案する。
1) 関係プロンプトは,前置詞によって強制されるオブジェクト間のインタラクションをキャプチャする必要がある。
2) 関係プロンプトは,オブジェクトの外観から切り離されるべきである。
さらに,低レベルの外観(テクスチャ,色など)におけるハイレベルなインタラクションを強調するために,関係・焦点重要度サンプリングを考案する。
本稿では,この課題を総合的に評価するために,多種多様な類似画像を提供するReVersion Benchmarkを提案する。
広範囲の視覚的関係において,既存手法に対するアプローチの優位性を検証した。
関連論文リスト
- RelationBooth: Towards Relation-Aware Customized Object Generation [32.762475563341525]
リレーショナルブース(RelationBooth)は、よく計算されたデータセットを通じて、アイデンティティとリレーショナルラーニングをアンハングリングするフレームワークである。
トレーニングデータには,関係固有画像,アイデンティティ情報を含む独立オブジェクト画像,関係生成をガイドするテキストプロンプトが含まれている。
まず,関係に密接に結びついたオブジェクトのポーズを調整する際に,効果的にモデルを導くキーポイントマッチング損失を導入する。
第二に、画像のプロンプトから局所的な特徴を取り入れて、オブジェクトの区別をより良くし、重複するケースの混同を防ぐ。
論文 参考訳(メタデータ) (2024-10-30T17:57:21Z) - Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - ResVG: Enhancing Relation and Semantic Understanding in Multiple Instances for Visual Grounding [42.10086029931937]
ビジュアルグラウンドティングは、自然言語クエリに基づいて画像に参照されるオブジェクトをローカライズすることを目的としている。
既存の手法では、画像に複数の障害がある場合、大幅な性能低下を示す。
本稿では,Relation and Semantic-sensitive Visual Grounding (ResVG)モデルを提案する。
論文 参考訳(メタデータ) (2024-08-29T07:32:01Z) - Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - Relation Rectification in Diffusion Model [64.84686527988809]
本稿では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを紹介する。
異種グラフ畳み込みネットワーク(HGCN)を利用した革新的な解を提案する。
軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
論文 参考訳(メタデータ) (2024-03-29T15:54:36Z) - Visual Commonsense based Heterogeneous Graph Contrastive Learning [79.22206720896664]
視覚的推論タスクをより良く仕上げるための異種グラフコントラスト学習法を提案する。
本手法はプラグイン・アンド・プレイ方式として設計されており,多種多様な代表手法と迅速かつ容易に組み合わせることができる。
論文 参考訳(メタデータ) (2023-11-11T12:01:18Z) - Dual Relation Alignment for Composed Image Retrieval [24.812654620141778]
合成画像検索における2種類の関係性の存在を論じる。
明示的な関係は、参照画像と補完テキストターゲット画像に関連する。
本稿では,合成画像検索のための新たな枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-05T12:16:14Z) - Object-aware Contrastive Learning for Debiased Scene Representation [74.30741492814327]
オブジェクトを自己教師型でローカライズする,オブジェクト認識型コントラスト学習フレームワークを開発した。
また、コントラCAM、オブジェクト認識型乱作、背景混合に基づく2つのデータ拡張を導入し、コントラスト型自己教師型学習における文脈バイアスと背景バイアスを低減した。
論文 参考訳(メタデータ) (2021-07-30T19:24:07Z) - ORD: Object Relationship Discovery for Visual Dialogue Generation [60.471670447176656]
視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。
階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。
実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2020-06-15T12:25:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。