論文の概要: ReVersion: Diffusion-Based Relation Inversion from Images
- arxiv url: http://arxiv.org/abs/2303.13495v2
- Date: Sun, 01 Dec 2024 14:04:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-03 20:23:11.234122
- Title: ReVersion: Diffusion-Based Relation Inversion from Images
- Title(参考訳): ReVersion: 画像からの拡散に基づく関係インバージョン
- Authors: Ziqi Huang, Tianxing Wu, Yuming Jiang, Kelvin C. K. Chan, Ziwei Liu,
- Abstract要約: 本稿では,既存の画像から特定の関係を学習することを目的としたリレーショナル・インバージョン・タスクを提案する。
我々は、凍結した事前学習されたテキスト-画像拡散モデルを用いて関係プロンプトを学習する。
学習した関係プロンプトを適用して、新しいオブジェクト、バックグラウンド、スタイルで関係固有の画像を生成する。
- 参考スコア(独自算出の注目度): 45.119800963218616
- License:
- Abstract: Diffusion models gain increasing popularity for their generative capabilities. Recently, there have been surging needs to generate customized images by inverting diffusion models from exemplar images, and existing inversion methods mainly focus on capturing object appearances (i.e., the "look"). However, how to invert object relations, another important pillar in the visual world, remains unexplored. In this work, we propose the Relation Inversion task, which aims to learn a specific relation (represented as "relation prompt") from exemplar images. Specifically, we learn a relation prompt with a frozen pre-trained text-to-image diffusion model. The learned relation prompt can then be applied to generate relation-specific images with new objects, backgrounds, and styles. To tackle the Relation Inversion task, we propose the ReVersion Framework. Specifically, we propose a novel "relation-steering contrastive learning" scheme to steer the relation prompt towards relation-dense regions, and disentangle it away from object appearances. We further devise "relation-focal importance sampling" to emphasize high-level interactions over low-level appearances (e.g., texture, color). To comprehensively evaluate this new task, we contribute the ReVersion Benchmark, which provides various exemplar images with diverse relations. Extensive experiments validate the superiority of our approach over existing methods across a wide range of visual relations. Our proposed task and method could be good inspirations for future research in various domains like generative inversion, few-shot learning, and visual relation detection.
- Abstract(参考訳): 拡散モデルは、その生成能力で人気が高まります。
近年,画像から拡散モデルを逆転させてカスタマイズ画像を生成する必要性が高まっており,既存の逆転法は主にオブジェクトの外観(つまり「外観」)を捉えることに焦点を当てている。
しかし、視覚界におけるもう一つの重要な柱である対象関係を逆転する方法は、まだ解明されていない。
本研究では,従来の画像から特定の関係を学習することを目的としたリレーショナル・インバージョン・タスクを提案する。
具体的には、凍結した事前学習されたテキスト-画像拡散モデルを用いて関係のプロンプトを学習する。
学習した関係プロンプトを適用して、新しいオブジェクト、バックグラウンド、スタイルで関係固有の画像を生成する。
リレーショナル・インバージョン・タスクに取り組むために,ReVersion Frameworkを提案する。
具体的には,関係感のある領域へ向けた関係を操り,対象外見から遠ざかる新たな「関係性学習」手法を提案する。
さらに、低レベルの外観(例えば、テクスチャ、色)に対する高レベルの相互作用を強調するために、「関係焦点重要サンプリング」を考案する。
本稿では,この課題を総合的に評価するために,多様な関係を持つ様々な模範画像を提供するReVersion Benchmarkを提案する。
広範囲の視覚的関係において,既存手法に対するアプローチの優位性を検証した。
提案手法は, 生成的逆転, 少数ショット学習, 視覚的関係検出など, 様々な領域における今後の研究のインスピレーションとなる可能性がある。
関連論文リスト
- RelationBooth: Towards Relation-Aware Customized Object Generation [32.762475563341525]
リレーショナルブース(RelationBooth)は、よく計算されたデータセットを通じて、アイデンティティとリレーショナルラーニングをアンハングリングするフレームワークである。
トレーニングデータには,関係固有画像,アイデンティティ情報を含む独立オブジェクト画像,関係生成をガイドするテキストプロンプトが含まれている。
まず,関係に密接に結びついたオブジェクトのポーズを調整する際に,効果的にモデルを導くキーポイントマッチング損失を導入する。
第二に、画像のプロンプトから局所的な特徴を取り入れて、オブジェクトの区別をより良くし、重複するケースの混同を防ぐ。
論文 参考訳(メタデータ) (2024-10-30T17:57:21Z) - Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - ResVG: Enhancing Relation and Semantic Understanding in Multiple Instances for Visual Grounding [42.10086029931937]
ビジュアルグラウンドティングは、自然言語クエリに基づいて画像に参照されるオブジェクトをローカライズすることを目的としている。
既存の手法では、画像に複数の障害がある場合、大幅な性能低下を示す。
本稿では,Relation and Semantic-sensitive Visual Grounding (ResVG)モデルを提案する。
論文 参考訳(メタデータ) (2024-08-29T07:32:01Z) - Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - Relation Rectification in Diffusion Model [64.84686527988809]
本稿では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを紹介する。
異種グラフ畳み込みネットワーク(HGCN)を利用した革新的な解を提案する。
軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
論文 参考訳(メタデータ) (2024-03-29T15:54:36Z) - Visual Commonsense based Heterogeneous Graph Contrastive Learning [79.22206720896664]
視覚的推論タスクをより良く仕上げるための異種グラフコントラスト学習法を提案する。
本手法はプラグイン・アンド・プレイ方式として設計されており,多種多様な代表手法と迅速かつ容易に組み合わせることができる。
論文 参考訳(メタデータ) (2023-11-11T12:01:18Z) - Dual Relation Alignment for Composed Image Retrieval [24.812654620141778]
合成画像検索における2種類の関係性の存在を論じる。
明示的な関係は、参照画像と補完テキストターゲット画像に関連する。
本稿では,合成画像検索のための新たな枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-05T12:16:14Z) - Object-aware Contrastive Learning for Debiased Scene Representation [74.30741492814327]
オブジェクトを自己教師型でローカライズする,オブジェクト認識型コントラスト学習フレームワークを開発した。
また、コントラCAM、オブジェクト認識型乱作、背景混合に基づく2つのデータ拡張を導入し、コントラスト型自己教師型学習における文脈バイアスと背景バイアスを低減した。
論文 参考訳(メタデータ) (2021-07-30T19:24:07Z) - ORD: Object Relationship Discovery for Visual Dialogue Generation [60.471670447176656]
視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。
階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。
実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2020-06-15T12:25:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。