論文の概要: ReVersion: Diffusion-Based Relation Inversion from Images
- arxiv url: http://arxiv.org/abs/2303.13495v1
- Date: Thu, 23 Mar 2023 17:56:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 12:52:44.113921
- Title: ReVersion: Diffusion-Based Relation Inversion from Images
- Title(参考訳): ReVersion: 画像からの拡散に基づく関係インバージョン
- Authors: Ziqi Huang, Tianxing Wu, Yuming Jiang, Kelvin C.K. Chan, Ziwei Liu
- Abstract要約: ReVersion for the Relation Inversion task, which aimed to learn a specific relationship from exemplar image。
我々は、凍結した事前学習されたテキスト-画像拡散モデルから関係のプロンプトを学習する。
学習した関係プロンプトを適用して、新しいオブジェクト、バックグラウンド、スタイルで関係固有の画像を生成する。
- 参考スコア(独自算出の注目度): 31.61407278439991
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models gain increasing popularity for their generative
capabilities. Recently, there have been surging needs to generate customized
images by inverting diffusion models from exemplar images. However, existing
inversion methods mainly focus on capturing object appearances. How to invert
object relations, another important pillar in the visual world, remains
unexplored. In this work, we propose ReVersion for the Relation Inversion task,
which aims to learn a specific relation (represented as "relation prompt") from
exemplar images. Specifically, we learn a relation prompt from a frozen
pre-trained text-to-image diffusion model. The learned relation prompt can then
be applied to generate relation-specific images with new objects, backgrounds,
and styles. Our key insight is the "preposition prior" - real-world relation
prompts can be sparsely activated upon a set of basis prepositional words.
Specifically, we propose a novel relation-steering contrastive learning scheme
to impose two critical properties of the relation prompt: 1) The relation
prompt should capture the interaction between objects, enforced by the
preposition prior. 2) The relation prompt should be disentangled away from
object appearances. We further devise relation-focal importance sampling to
emphasize high-level interactions over low-level appearances (e.g., texture,
color). To comprehensively evaluate this new task, we contribute ReVersion
Benchmark, which provides various exemplar images with diverse relations.
Extensive experiments validate the superiority of our approach over existing
methods across a wide range of visual relations.
- Abstract(参考訳): 拡散モデルは、その生成能力で人気が高まる。
近年,exemplar画像からの拡散モデルを反転させることで,カスタマイズした画像を生成する必要性が高まっている。
しかし、既存の反転法は主に物体の出現を捉えることに焦点を当てている。
視覚の世界におけるもう一つの重要な柱であるオブジェクト関係を逆転する方法は、まだ解明されていない。
本研究では,関係反転タスクのリバージョンを提案する。このタスクは,例示画像から特定の関係(「関係プロンプト」として表現される)を学習することを目的としている。
具体的には、凍結学習されたテキストから画像への拡散モデルから関係プロンプトを学習する。
学習された関係プロンプトは、新しいオブジェクト、背景、スタイルで関係特有のイメージを生成するために適用できる。
私たちの重要な洞察は、"preposition prior" - 実世界の関係プロンプトは、基底前置詞のセットでスパースに活性化される。
具体的には、関係学習の2つの重要な特性を課す新しい関係学習手法を提案する。
1) 関係プロンプトは,前置詞によって強制されるオブジェクト間のインタラクションをキャプチャする必要がある。
2) 関係プロンプトは,オブジェクトの外観から切り離されるべきである。
さらに,低レベルの外観(テクスチャ,色など)におけるハイレベルなインタラクションを強調するために,関係・焦点重要度サンプリングを考案する。
本稿では,この課題を総合的に評価するために,多種多様な類似画像を提供するReVersion Benchmarkを提案する。
広範囲の視覚的関係において,既存手法に対するアプローチの優位性を検証した。
関連論文リスト
- Unleashing In-context Learning of Autoregressive Models for Few-shot Image Manipulation [70.95783968368124]
我々は、$textbfInstaManip$と呼ばれる新しいマルチモーダル自動回帰モデルを導入する。
本稿では,コンテキスト内学習プロセスを2つの段階に分割する,革新的なグループ自己認識機構を提案する。
提案手法は、過去の数ショット画像操作モデルよりも顕著なマージンを超越している。
論文 参考訳(メタデータ) (2024-12-02T01:19:21Z) - Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - ResVG: Enhancing Relation and Semantic Understanding in Multiple Instances for Visual Grounding [42.10086029931937]
ビジュアルグラウンドティングは、自然言語クエリに基づいて画像に参照されるオブジェクトをローカライズすることを目的としている。
既存の手法では、画像に複数の障害がある場合、大幅な性能低下を示す。
本稿では,Relation and Semantic-sensitive Visual Grounding (ResVG)モデルを提案する。
論文 参考訳(メタデータ) (2024-08-29T07:32:01Z) - Knowledge-augmented Few-shot Visual Relation Detection [25.457693302327637]
視覚的関係検出(VRD)は、画像理解のためのオブジェクト間の関係を検出することを目的としている。
既存のVRD手法の多くは、良好なパフォーマンスを達成するために、各関係の何千ものトレーニングサンプルに依存している。
我々は、テキスト知識と視覚的関係知識の両方を活用する、知識を付加した、数発のVRDフレームワークを考案する。
論文 参考訳(メタデータ) (2023-03-09T15:38:40Z) - Objects Matter: Learning Object Relation Graph for Robust Camera
Relocalization [2.9005223064604078]
本稿では,物体間の深い関係を抽出し,特徴の識別性を高めることを提案する。
特に、画像中のオブジェクトを抽出し、オブジェクトの意味的関係と相対的な空間的手がかりを組み込むディープオブジェクト関係グラフ(ORG)を構築する。
論文 参考訳(メタデータ) (2022-05-26T11:37:11Z) - Object-aware Contrastive Learning for Debiased Scene Representation [74.30741492814327]
オブジェクトを自己教師型でローカライズする,オブジェクト認識型コントラスト学習フレームワークを開発した。
また、コントラCAM、オブジェクト認識型乱作、背景混合に基づく2つのデータ拡張を導入し、コントラスト型自己教師型学習における文脈バイアスと背景バイアスを低減した。
論文 参考訳(メタデータ) (2021-07-30T19:24:07Z) - Visual Relationship Detection with Visual-Linguistic Knowledge from
Multimodal Representations [103.00383924074585]
視覚的関係検出は、画像内の有能なオブジェクト間の関係を推論することを目的としている。
変換器からの視覚言語表現(RVL-BERT)という新しい手法を提案する。
RVL-BERTは、自己教師付き事前学習を通じて学習した視覚的・言語的常識知識を用いて空間推論を行う。
論文 参考訳(メタデータ) (2020-09-10T16:15:09Z) - ORD: Object Relationship Discovery for Visual Dialogue Generation [60.471670447176656]
視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。
階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。
実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2020-06-15T12:25:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。