Fugu-MT 論文翻訳(概要): ReVersion: Diffusion-Based Relation Inversion from Images

論文の概要: ReVersion: Diffusion-Based Relation Inversion from Images

arxiv url: http://arxiv.org/abs/2303.13495v1
Date: Thu, 23 Mar 2023 17:56:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-24 12:52:44.113921
Title: ReVersion: Diffusion-Based Relation Inversion from Images
Title（参考訳）: ReVersion: 画像からの拡散に基づく関係インバージョン
Authors: Ziqi Huang, Tianxing Wu, Yuming Jiang, Kelvin C.K. Chan, Ziwei Liu
Abstract要約: ReVersion for the Relation Inversion task, which aimed to learn a specific relationship from exemplar image。我々は、凍結した事前学習されたテキスト-画像拡散モデルから関係のプロンプトを学習する。学習した関係プロンプトを適用して、新しいオブジェクト、バックグラウンド、スタイルで関係固有の画像を生成する。
参考スコア（独自算出の注目度）: 31.61407278439991
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models gain increasing popularity for their generative capabilities. Recently, there have been surging needs to generate customized images by inverting diffusion models from exemplar images. However, existing inversion methods mainly focus on capturing object appearances. How to invert object relations, another important pillar in the visual world, remains unexplored. In this work, we propose ReVersion for the Relation Inversion task, which aims to learn a specific relation (represented as "relation prompt") from exemplar images. Specifically, we learn a relation prompt from a frozen pre-trained text-to-image diffusion model. The learned relation prompt can then be applied to generate relation-specific images with new objects, backgrounds, and styles. Our key insight is the "preposition prior" - real-world relation prompts can be sparsely activated upon a set of basis prepositional words. Specifically, we propose a novel relation-steering contrastive learning scheme to impose two critical properties of the relation prompt: 1) The relation prompt should capture the interaction between objects, enforced by the preposition prior. 2) The relation prompt should be disentangled away from object appearances. We further devise relation-focal importance sampling to emphasize high-level interactions over low-level appearances (e.g., texture, color). To comprehensively evaluate this new task, we contribute ReVersion Benchmark, which provides various exemplar images with diverse relations. Extensive experiments validate the superiority of our approach over existing methods across a wide range of visual relations.
Abstract（参考訳）: 拡散モデルは、その生成能力で人気が高まる。近年,exemplar画像からの拡散モデルを反転させることで,カスタマイズした画像を生成する必要性が高まっている。しかし、既存の反転法は主に物体の出現を捉えることに焦点を当てている。視覚の世界におけるもう一つの重要な柱であるオブジェクト関係を逆転する方法は、まだ解明されていない。本研究では,関係反転タスクのリバージョンを提案する。このタスクは,例示画像から特定の関係(「関係プロンプト」として表現される)を学習することを目的としている。具体的には、凍結学習されたテキストから画像への拡散モデルから関係プロンプトを学習する。学習された関係プロンプトは、新しいオブジェクト、背景、スタイルで関係特有のイメージを生成するために適用できる。私たちの重要な洞察は、"preposition prior" - 実世界の関係プロンプトは、基底前置詞のセットでスパースに活性化される。具体的には、関係学習の2つの重要な特性を課す新しい関係学習手法を提案する。 1) 関係プロンプトは,前置詞によって強制されるオブジェクト間のインタラクションをキャプチャする必要がある。 2) 関係プロンプトは,オブジェクトの外観から切り離されるべきである。さらに,低レベルの外観(テクスチャ,色など)におけるハイレベルなインタラクションを強調するために,関係・焦点重要度サンプリングを考案する。本稿では,この課題を総合的に評価するために,多種多様な類似画像を提供するReVersion Benchmarkを提案する。広範囲の視覚的関係において,既存手法に対するアプローチの優位性を検証した。

関連論文リスト

Generalized Visual Relation Detection with Diffusion Models [94.62313788626128]
視覚的関係検出(VRD)は、画像内のオブジェクトペア間の関係(または相互作用)を特定することを目的としている。本稿では,視覚的関係を連続的な埋め込みとしてモデル化し,一般化されたVRDを条件付き生成方法で実現するための拡散モデルの設計を提案する。我々のDiff-VRDは、予め定義されたデータセットのカテゴリラベルを超えて、視覚的な関係を生成できる。
論文参考訳（メタデータ） (2025-04-16T14:03:24Z)
Unleashing In-context Learning of Autoregressive Models for Few-shot Image Manipulation [70.95783968368124]
我々は、$textbfInstaManip$と呼ばれる新しいマルチモーダル自動回帰モデルを導入する。本稿では,コンテキスト内学習プロセスを2つの段階に分割する,革新的なグループ自己認識機構を提案する。提案手法は、過去の数ショット画像操作モデルよりも顕著なマージンを超越している。
論文参考訳（メタデータ） (2024-12-02T01:19:21Z)
RelationBooth: Towards Relation-Aware Customized Object Generation [32.762475563341525]
リレーショナルブース(RelationBooth)は、よく計算されたデータセットを通じて、アイデンティティとリレーショナルラーニングをアンハングリングするフレームワークである。トレーニングデータには,関係固有画像,アイデンティティ情報を含む独立オブジェクト画像,関係生成をガイドするテキストプロンプトが含まれている。まず,関係に密接に結びついたオブジェクトのポーズを調整する際に,効果的にモデルを導くキーポイントマッチング損失を導入する。第二に、画像のプロンプトから局所的な特徴を取り入れて、オブジェクトの区別をより良くし、重複するケースの混同を防ぐ。
論文参考訳（メタデータ） (2024-10-30T17:57:21Z)
Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文参考訳（メタデータ） (2024-10-26T12:00:33Z)
ResVG: Enhancing Relation and Semantic Understanding in Multiple Instances for Visual Grounding [42.10086029931937]
ビジュアルグラウンドティングは、自然言語クエリに基づいて画像に参照されるオブジェクトをローカライズすることを目的としている。既存の手法では、画像に複数の障害がある場合、大幅な性能低下を示す。本稿では,Relation and Semantic-sensitive Visual Grounding (ResVG)モデルを提案する。
論文参考訳（メタデータ） (2024-08-29T07:32:01Z)
Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文参考訳（メタデータ） (2024-07-06T15:07:32Z)
Relation Rectification in Diffusion Model [64.84686527988809]
本稿では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを紹介する。異種グラフ畳み込みネットワーク(HGCN)を利用した革新的な解を提案する。軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
論文参考訳（メタデータ） (2024-03-29T15:54:36Z)
Explore In-Context Segmentation via Latent Diffusion Models [132.26274147026854]
インコンテキストセグメンテーションは、与えられた参照画像を使ってオブジェクトをセグメンテーションすることを目的としている。既存のほとんどのアプローチでは、視覚的プロンプトと入力画像クエリの相関を構築するために、メトリックラーニングやマスク付きイメージモデリングを採用しています。この研究は、新しい視点から問題にアプローチし、コンテキスト内セグメンテーションのための潜在拡散モデルの能力を解き放つ。
論文参考訳（メタデータ） (2024-03-14T17:52:31Z)
Visual Commonsense based Heterogeneous Graph Contrastive Learning [79.22206720896664]
視覚的推論タスクをより良く仕上げるための異種グラフコントラスト学習法を提案する。本手法はプラグイン・アンド・プレイ方式として設計されており,多種多様な代表手法と迅速かつ容易に組み合わせることができる。
論文参考訳（メタデータ） (2023-11-11T12:01:18Z)
Dual Relation Alignment for Composed Image Retrieval [24.812654620141778]
合成画像検索における2種類の関係性の存在を論じる。明示的な関係は、参照画像と補完テキストターゲット画像に関連する。本稿では,合成画像検索のための新たな枠組みを提案する。
論文参考訳（メタデータ） (2023-09-05T12:16:14Z)
Objects Matter: Learning Object Relation Graph for Robust Camera Relocalization [2.9005223064604078]
本稿では,物体間の深い関係を抽出し,特徴の識別性を高めることを提案する。特に、画像中のオブジェクトを抽出し、オブジェクトの意味的関係と相対的な空間的手がかりを組み込むディープオブジェクト関係グラフ(ORG)を構築する。
論文参考訳（メタデータ） (2022-05-26T11:37:11Z)
Object-aware Contrastive Learning for Debiased Scene Representation [74.30741492814327]
オブジェクトを自己教師型でローカライズする,オブジェクト認識型コントラスト学習フレームワークを開発した。また、コントラCAM、オブジェクト認識型乱作、背景混合に基づく2つのデータ拡張を導入し、コントラスト型自己教師型学習における文脈バイアスと背景バイアスを低減した。
論文参考訳（メタデータ） (2021-07-30T19:24:07Z)
Visual Relationship Detection with Visual-Linguistic Knowledge from Multimodal Representations [103.00383924074585]
視覚的関係検出は、画像内の有能なオブジェクト間の関係を推論することを目的としている。変換器からの視覚言語表現(RVL-BERT)という新しい手法を提案する。 RVL-BERTは、自己教師付き事前学習を通じて学習した視覚的・言語的常識知識を用いて空間推論を行う。
論文参考訳（メタデータ） (2020-09-10T16:15:09Z)
ORD: Object Relationship Discovery for Visual Dialogue Generation [60.471670447176656]
視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
論文参考訳（メタデータ） (2020-06-15T12:25:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。