論文の概要: RelationAdapter: Learning and Transferring Visual Relation with Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2506.02528v1
- Date: Tue, 03 Jun 2025 07:06:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.382281
- Title: RelationAdapter: Learning and Transferring Visual Relation with Diffusion Transformers
- Title(参考訳): RelationAdapter: 拡散変換器による視覚関係の学習と伝達
- Authors: Yan Gong, Yiren Song, Yicheng Li, Chenglin Li, Yin Zhang,
- Abstract要約: 本稿では、ソースターゲット画像のペアを利用して、新規なクエリ画像に対するコンテンツ認識編集意図を抽出し、転送する。
本稿では、Diffusion Transformer(DiT)ベースのモデルで視覚変換を効果的にキャプチャし、適用できる軽量モジュールであるRelationAdapterを紹介する。
Relation252Kの実験では、RelationAdapterはモデルの編集意図を理解し、転送する能力を大幅に改善し、生成品質と全体的な編集性能が顕著に向上した。
- 参考スコア(独自算出の注目度): 23.062860374441218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inspired by the in-context learning mechanism of large language models (LLMs), a new paradigm of generalizable visual prompt-based image editing is emerging. Existing single-reference methods typically focus on style or appearance adjustments and struggle with non-rigid transformations. To address these limitations, we propose leveraging source-target image pairs to extract and transfer content-aware editing intent to novel query images. To this end, we introduce RelationAdapter, a lightweight module that enables Diffusion Transformer (DiT) based models to effectively capture and apply visual transformations from minimal examples. We also introduce Relation252K, a comprehensive dataset comprising 218 diverse editing tasks, to evaluate model generalization and adaptability in visual prompt-driven scenarios. Experiments on Relation252K show that RelationAdapter significantly improves the model's ability to understand and transfer editing intent, leading to notable gains in generation quality and overall editing performance.
- Abstract(参考訳): 大規模言語モデル(LLM)のコンテキスト内学習機構に触発されて、一般化可能な視覚的プロンプトベースの画像編集の新しいパラダイムが出現しつつある。
既存の単一参照手法は、スタイルや外観の調整に重点を置いており、厳密でない変換に苦労する。
これらの制約に対処するため、新しいクエリ画像に対してコンテンツ認識編集意図を抽出し、転送するために、ソースターゲット画像ペアを活用することを提案する。
この目的のために、Diffusion Transformer(DiT)ベースのモデルにより、最小限の例から視覚変換を効果的にキャプチャし、適用できる軽量モジュールであるRelationAdapterを導入する。
また、218の多様な編集タスクからなる包括的データセットであるRelation252Kを導入し、視覚的プロンプト駆動シナリオにおけるモデルの一般化と適応性を評価する。
Relation252Kの実験では、RelationAdapterはモデルの編集意図を理解し、転送する能力を大幅に改善し、生成品質と全体的な編集性能が顕著に向上した。
関連論文リスト
- Training-Free Text-Guided Image Editing with Visual Autoregressive Model [46.201510044410995]
本稿では,Visual AutoRegressive モデリングに基づく新しいテキスト誘導画像編集フレームワークを提案する。
本手法は, 正確かつ制御された修正を確実にしながら, 明示的な逆変換の必要性を解消する。
我々のフレームワークは、トレーニング不要な方法で動作し、高速な推論速度で高忠実度編集を実現する。
論文 参考訳(メタデータ) (2025-03-31T09:46:56Z) - Edit Transfer: Learning Image Editing via Vision In-Context Relations [20.26248827962424]
モデルが1つのソースターゲットの例から変換を学習し、それを新しいクエリイメージに適用する、新しい設定であるEdit Transferを導入する。
編集した例とクエリ画像を統一された4パネル複合体に配置し、軽量なLoRAファインチューニングを適用する。
42のトレーニングサンプルしか使用していないが、Edit Transferは、さまざまな非厳密なシナリオで最先端のTIEとRIEメソッドを大幅に上回っている。
論文 参考訳(メタデータ) (2025-03-17T16:04:44Z) - GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing [66.33454784945293]
Generation Chain-of-Thought(GoT)は、明示的な言語推論プロセスを通じて生成と編集を可能にする新しいパラダイムである。
GoTは従来のテキストから画像への生成と編集を推論誘導フレームワークに変換する。
論文 参考訳(メタデータ) (2025-03-13T17:59:59Z) - PartEdit: Fine-Grained Image Editing using Pre-Trained Diffusion Models [80.98455219375862]
本稿では,事前学習した拡散モデルに基づくオブジェクト部品に対する最初のテキストベースの画像編集手法を提案する。
提案手法は, 利用者の77~90%に好まれる。
論文 参考訳(メタデータ) (2025-02-06T13:08:43Z) - UNIC-Adapter: Unified Image-instruction Adapter with Multi-modal Transformer for Image Generation [64.8341372591993]
一つのフレームワーク内で制御可能な生成を統一するための新しいアプローチを提案する。
具体的には,Multi-Modal-Diffusion Transformerアーキテクチャ上に構築された統合イメージインストラクションアダプタ(UNIC-Adapter)を提案する。
UNIC-Adapterは条件付き画像とタスク命令の両方を組み込んだマルチモーダル命令情報を効果的に抽出する。
論文 参考訳(メタデータ) (2024-12-25T15:19:02Z) - Situational Perception Guided Image Matting [16.1897179939677]
本研究では,マットアノテーションの主観バイアスを緩和する状況認識ガイド画像マッチング(SPG-IM)手法を提案する。
SPG-IMは、オブジェクト間およびオブジェクト間サリエンシをよりよく関連付けることができ、画像マッチングの主観的性質を補うことができる。
論文 参考訳(メタデータ) (2022-04-20T07:35:51Z) - Enjoy Your Editing: Controllable GANs for Image Editing via Latent Space
Navigation [136.53288628437355]
コントロール可能なセマンティックイメージ編集により、ユーザーはクリック数回で画像属性全体を変更できる。
現在のアプローチでは、絡み合った属性編集、グローバルなイメージアイデンティティの変更、フォトリアリズムの低下に悩まされることが多い。
本稿では,主に定性評価に焦点を当てた先行研究とは異なり,制御可能な編集性能を測定するための定量的評価手法を提案する。
論文 参考訳(メタデータ) (2021-02-01T21:38:36Z) - Fine-grained Image-to-Image Transformation towards Visual Recognition [102.51124181873101]
我々は,入力画像の同一性を保った画像を生成するために,微細なカテゴリで画像を変換することを目的としている。
我々は、画像のアイデンティティと非関連要因をアンハングルするために、生成的敵ネットワークに基づくモデルを採用する。
CompCarsとMulti-PIEデータセットの実験では、我々のモデルが生成した画像のアイデンティティを、最先端の画像-画像変換モデルよりもはるかによく保存していることが示された。
論文 参考訳(メタデータ) (2020-01-12T05:26:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。