Fugu-MT 論文翻訳(概要): RelationBooth: Towards Relation-Aware Customized Object Generation

論文の概要: RelationBooth: Towards Relation-Aware Customized Object Generation

arxiv url: http://arxiv.org/abs/2410.23280v1
Date: Wed, 30 Oct 2024 17:57:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:42.481322
Title: RelationBooth: Towards Relation-Aware Customized Object Generation
Title（参考訳）: RelationBooth: Relation-Aware Customized Object Generationを目指して
Authors: Qingyu Shi, Lu Qi, Jianzong Wu, Jinbin Bai, Jingbo Wang, Yunhai Tong, Xiangtai Li, Ming-Husang Yang,
Abstract要約: リレーショナルブース(RelationBooth)は、よく計算されたデータセットを通じて、アイデンティティとリレーショナルラーニングをアンハングリングするフレームワークである。トレーニングデータには,関係固有画像,アイデンティティ情報を含む独立オブジェクト画像,関係生成をガイドするテキストプロンプトが含まれている。まず,関係に密接に結びついたオブジェクトのポーズを調整する際に,効果的にモデルを導くキーポイントマッチング損失を導入する。第二に、画像のプロンプトから局所的な特徴を取り入れて、オブジェクトの区別をより良くし、重複するケースの混同を防ぐ。
参考スコア（独自算出の注目度）: 32.762475563341525
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Customized image generation is crucial for delivering personalized content based on user-provided image prompts, aligning large-scale text-to-image diffusion models with individual needs. However, existing models often overlook the relationships between customized objects in generated images. Instead, this work addresses that gap by focusing on relation-aware customized image generation, which aims to preserve the identities from image prompts while maintaining the predicate relations described in text prompts. Specifically, we introduce RelationBooth, a framework that disentangles identity and relation learning through a well-curated dataset. Our training data consists of relation-specific images, independent object images containing identity information, and text prompts to guide relation generation. Then, we propose two key modules to tackle the two main challenges: generating accurate and natural relations, especially when significant pose adjustments are required, and avoiding object confusion in cases of overlap. First, we introduce a keypoint matching loss that effectively guides the model in adjusting object poses closely tied to their relationships. Second, we incorporate local features from the image prompts to better distinguish between objects, preventing confusion in overlapping cases. Extensive results on three benchmarks demonstrate the superiority of RelationBooth in generating precise relations while preserving object identities across a diverse set of objects and relations. The source code and trained models will be made available to the public.
Abstract（参考訳）: カスタマイズされた画像生成は、ユーザが提供する画像プロンプトに基づいてパーソナライズされたコンテンツを配信するために不可欠である。しかし、既存のモデルは、生成された画像内のカスタマイズされたオブジェクト間の関係をしばしば見落としている。代わりに、この作業は、テキストプロンプトに記述された述語関係を維持しながら、画像プロンプトからアイデンティティを保存することを目的とした、リレーションアウェアなカスタマイズされた画像生成に焦点を当てて、そのギャップに対処する。具体的には、よく計算されたデータセットを通してアイデンティティと関係学習をアンタングル化するフレームワークであるRelationBoothを紹介する。トレーニングデータには,関係固有画像,アイデンティティ情報を含む独立オブジェクト画像,関係生成をガイドするテキストプロンプトが含まれている。そこで我々は,2つの主要な課題,特に重要なポーズ調整が必要な場合に,正確で自然な関係を生成すること,重複する場合のオブジェクトの混同を避けること,の2つの主要な課題に対処するモジュールを提案する。まず,関係に密接に結びついたオブジェクトのポーズを調整する際に,効果的にモデルを導くキーポイントマッチング損失を導入する。第二に、画像のプロンプトから局所的な特徴を取り入れて、オブジェクトの区別をより良くし、重複するケースの混同を防ぐ。 3つのベンチマークの結果は、多種多様なオブジェクトと関係をまたいだオブジェクトの同一性を保ちながら、正確な関係を生成する上で、RelationBoothの優位性を示している。ソースコードとトレーニングされたモデルが一般公開される予定だ。

関連論文リスト

DIPO: Dual-State Images Controlled Articulated Object Generation Powered by Diverse Data [67.99373622902827]
DIPOは、一対のイメージから調音された3Dオブジェクトを制御可能な生成するためのフレームワークである。本稿では,イメージペア間の関係を捉え,部分配置と関節パラメータを生成するデュアルイメージ拡散モデルを提案する。複雑な3Dオブジェクトの大規模データセットであるPM-Xについて,レンダリング画像,URDFアノテーション,テキスト記述を伴って提案する。
論文参考訳（メタデータ） (2025-05-26T18:55:14Z)
DreamRelation: Relation-Centric Video Customization [33.65405972817795]
ビデオのカスタマイズ(英: video customization)とは、2つの主題間のユーザー特定関係を描写したパーソナライズされたビデオを作成することを指す。既存の手法では、被写体や動きをパーソナライズできるが、複雑なビデオのカスタマイズには苦戦している。本稿では,DreamRelationを提案する。DreamRelationはビデオの小さな集合を捉え,デカップリング学習とダイナミックエンハンスメントという2つの重要なコンポーネントを活用する。
論文参考訳（メタデータ） (2025-03-10T17:58:03Z)
ResVG: Enhancing Relation and Semantic Understanding in Multiple Instances for Visual Grounding [42.10086029931937]
ビジュアルグラウンドティングは、自然言語クエリに基づいて画像に参照されるオブジェクトをローカライズすることを目的としている。既存の手法では、画像に複数の障害がある場合、大幅な性能低下を示す。本稿では,Relation and Semantic-sensitive Visual Grounding (ResVG)モデルを提案する。
論文参考訳（メタデータ） (2024-08-29T07:32:01Z)
Composing Object Relations and Attributes for Image-Text Matching [70.47747937665987]
この研究は、シーングラフを利用して、リレーショナルエッジで相互接続されたオブジェクトや属性のノードでキャプションを表現するデュアルエンコーダ画像テキストマッチングモデルを導入する。本モデルは,オブジェクト属性とオブジェクトオブジェクトの意味関係を効率的に符号化し,ロバストかつ高速な性能システムを実現する。
論文参考訳（メタデータ） (2024-06-17T17:56:01Z)
Relation Rectification in Diffusion Model [64.84686527988809]
本稿では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを紹介する。異種グラフ畳み込みネットワーク(HGCN)を利用した革新的な解を提案する。軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
論文参考訳（メタデータ） (2024-03-29T15:54:36Z)
Counterfactual Image Editing [54.21104691749547]
対物画像編集は、生成AIにおいて重要なタスクであり、ある機能が異なる場合、画像がどのように見えるかを尋ねる。本稿では,形式言語を用いた対物画像編集タスクを形式化し,潜在生成因子と画像の因果関係をモデル化する。ニューラル因果モデルを利用して、対物画像を生成する効率的なアルゴリズムを開発した。
論文参考訳（メタデータ） (2024-02-07T20:55:39Z)
ReVersion: Diffusion-Based Relation Inversion from Images [31.61407278439991]
ReVersion for the Relation Inversion task, which aimed to learn a specific relationship from exemplar image。我々は、凍結した事前学習されたテキスト-画像拡散モデルから関係のプロンプトを学習する。学習した関係プロンプトを適用して、新しいオブジェクト、バックグラウンド、スタイルで関係固有の画像を生成する。
論文参考訳（メタデータ） (2023-03-23T17:56:10Z)
Relationformer: A Unified Framework for Image-to-Graph Generation [18.832626244362075]
この研究は、オブジェクトとその関係を共同で予測する一段階トランスフォーマーベースの統合フレームワークであるRelationformerを提案する。我々は、直接セットベースのオブジェクト予測を活用し、オブジェクト間の相互作用を取り入れて、オブジェクト関係表現を共同で学習する。複数、多種多様な、複数ドメインのデータセット上で、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-03-19T00:36:59Z)
Learning to Compose Visual Relations [100.45138490076866]
我々は,各関係を非正規化密度(エネルギーベースモデル)として表現することを提案する。このような分解を分解することで、複数の関係を持つシーンをより忠実に生成・編集できることを示す。
論文参考訳（メタデータ） (2021-11-17T18:51:29Z)
Exploiting Relationship for Complex-scene Image Generation [43.022978211274065]
本研究では,複数のオブジェクトをシーングラフとして関連づける関係認識型複素画像生成について考察する。生成フレームワークに3つの大きなアップデートを提案する。第一に、合理的な空間レイアウトは、オブジェクト間の意味と関係を共同で考慮することで推測される。第2に,オブジェクト間の関係がオブジェクトの外観に大きく影響するため,オブジェクト間の関係を反映するオブジェクトを生成するための関係誘導ジェネレータを設計する。第3に,生成画像と入力シーングラフの一貫性を保証するため,新たなシーングラフ判別器を提案する。
論文参考訳（メタデータ） (2021-04-01T09:21:39Z)
Context-Aware Layout to Image Generation with Enhanced Object Appearance [123.62597976732948]
レイアウト・トゥ・イメージ(l2i)生成モデルの目的は、自然背景(スタフ)に対して複数のオブジェクト(もの)を含む複雑な画像を生成することである。既存のL2Iモデルは大きな進歩を遂げているが、オブジェクト間とオブジェクト間の関係はしばしば壊れている。これらの原因は、ジェネレータにコンテキスト認識オブジェクトや機能エンコーディングがないことと、識別装置に位置依存の外観表現がないことにあります。
論文参考訳（メタデータ） (2021-03-22T14:43:25Z)
Understanding Spatial Relations through Multiple Modalities [78.07328342973611]
オブジェクト間の空間的関係は、空間的前置詞として表されるか、移動、歩行、移動などの空間的動詞によって表される。画像中の2つの実体間の暗黙的・明示的な空間的関係を推定するタスクを導入する。本研究では、テキスト情報と視覚情報の両方を用いて空間関係を予測し、物体の位置情報と大きさ情報と画像埋め込みを利用するモデルを設計する。
論文参考訳（メタデータ） (2020-07-19T01:35:08Z)
Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文参考訳（メタデータ） (2020-03-16T21:40:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。