論文の概要: DreamFuse: Adaptive Image Fusion with Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2504.08291v1
- Date: Fri, 11 Apr 2025 06:49:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:18:55.274688
- Title: DreamFuse: Adaptive Image Fusion with Diffusion Transformer
- Title(参考訳): DreamFuse: 拡散変換器を用いた適応画像融合
- Authors: Junjia Huang, Pengxiang Yan, Jiyang Liu, Jie Wu, Zhao Wang, Yitong Wang, Liang Lin, Guanbin Li,
- Abstract要約: 本稿では,画像融合データセットを生成するための反復的ヒューマン・イン・ザ・ループデータ生成パイプラインを提案する。
本研究では,背景情報と背景情報の両方で一貫した画像を生成する新しいアプローチであるDreamFuseを紹介する。
DreamFuseは、融合した結果のテキスト駆動編集に一般化しながら、調和した融合を実現する。
- 参考スコア(独自算出の注目度): 85.69622262632066
- License:
- Abstract: Image fusion seeks to seamlessly integrate foreground objects with background scenes, producing realistic and harmonious fused images. Unlike existing methods that directly insert objects into the background, adaptive and interactive fusion remains a challenging yet appealing task. It requires the foreground to adjust or interact with the background context, enabling more coherent integration. To address this, we propose an iterative human-in-the-loop data generation pipeline, which leverages limited initial data with diverse textual prompts to generate fusion datasets across various scenarios and interactions, including placement, holding, wearing, and style transfer. Building on this, we introduce DreamFuse, a novel approach based on the Diffusion Transformer (DiT) model, to generate consistent and harmonious fused images with both foreground and background information. DreamFuse employs a Positional Affine mechanism to inject the size and position of the foreground into the background, enabling effective foreground-background interaction through shared attention. Furthermore, we apply Localized Direct Preference Optimization guided by human feedback to refine DreamFuse, enhancing background consistency and foreground harmony. DreamFuse achieves harmonious fusion while generalizing to text-driven attribute editing of the fused results. Experimental results demonstrate that our method outperforms state-of-the-art approaches across multiple metrics.
- Abstract(参考訳): 画像融合は、前景のオブジェクトと背景のシーンをシームレスに統合し、現実的で調和した融合画像を作り出す。
オブジェクトを直接背景に挿入する既存の方法とは異なり、適応的でインタラクティブな融合は難しいが魅力的な課題である。
前景は背景のコンテキストを調整または操作し、より一貫性のある統合を可能にする必要がある。
そこで本研究では,多様なテキストプロンプトを持つ限られた初期データを活用して,配置,保持,着用,スタイル転送など,さまざまなシナリオとインタラクションの融合データセットを生成する,反復型ヒューマン・イン・ザ・ループデータ生成パイプラインを提案する。
そこで我々は,Deffusion Transformer(DiT)モデルに基づく新しいアプローチであるDreamFuseを導入し,前景情報と背景情報の両方で一貫した,調和した融合画像を生成する。
DreamFuseは、フォアグラウンドのサイズと位置を背景に注入する位置アフィン機構を採用し、共有された注意を通して効果的なフォアグラウンドとバックグラウンドの相互作用を可能にする。
さらに,DreamFuseを洗練させ,背景の整合性と前景の調和性を高めるために,人間のフィードバックによって導かれる局所的直接選好最適化を適用した。
DreamFuseは、融合した結果のテキスト駆動属性編集に一般化しながら、調和した融合を実現する。
実験結果から,本手法は複数の指標にまたがる最先端手法よりも優れていることが示された。
関連論文リスト
- Text-DiFuse: An Interactive Multi-Modal Image Fusion Framework based on Text-modulated Diffusion Model [30.739879255847946]
既存のマルチモーダル画像融合法では、ソース画像に示される複合劣化に対処できない。
本研究では,テキスト変調拡散モデルであるText-DiFuseに基づく,インタラクティブなマルチモーダル画像融合フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-31T13:10:50Z) - Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond [74.96466744512992]
画像融合の本質は、ソース画像からの相補的な情報を統合することである。
DeFusion++は、画像融合の品質を高め、下流の高レベル視覚タスクの有効性を高める、汎用的な融合表現を生成する。
論文 参考訳(メタデータ) (2024-10-16T06:28:49Z) - DreamMover: Leveraging the Prior of Diffusion Models for Image Interpolation with Large Motion [35.60459492849359]
本研究では,大きな動きを持つ画像対から中間画像を生成する問題について検討する。
大きな動きのため、中間的な意味情報は入力画像に欠落する可能性がある。
3つの主要コンポーネントを持つ新しいイメージフレームワークであるDreamMoverを提案する。
論文 参考訳(メタデータ) (2024-09-15T04:09:12Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - TextFusion: Unveiling the Power of Textual Semantics for Controllable
Image Fusion [38.61215361212626]
本稿では,高度な画像融合のためのテキスト誘導融合パラダイムを提案する。
テキスト注釈付き画像融合データセットIVTをリリースする。
我々のアプローチは、従来の外見に基づく融合法よりも一貫して優れています。
論文 参考訳(メタデータ) (2023-12-21T09:25:10Z) - Deep Image Harmonization with Globally Guided Feature Transformation and
Relation Distillation [20.302430505018]
我々は,グローバル情報を用いて前景の特徴変換を導くことで,大幅な改善が期待できることを示した。
また,前景と背景の関係を実画像から合成画像に転送し,変換エンコーダの特徴の中間的管理を行う。
論文 参考訳(メタデータ) (2023-08-01T07:53:25Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - A Task-guided, Implicitly-searched and Meta-initialized Deep Model for
Image Fusion [69.10255211811007]
本稿では,課題の多い現実シナリオにおいて,画像融合問題に対処するためのタスク誘導,インプリシト検索,メタ一般化(TIM)深層モデルを提案する。
具体的には、画像融合の教師なし学習プロセスを導くために、下流タスクからの情報を組み込む制約付き戦略を提案する。
このフレームワーク内に暗黙の探索スキームを設計し、高速な融合モデルのためのコンパクトなアーキテクチャを自動で発見する。
論文 参考訳(メタデータ) (2023-05-25T08:54:08Z) - Voxel Field Fusion for 3D Object Detection [140.6941303279114]
本稿では,3次元オブジェクト検出のための概念的にシンプルなフレームワークであるvoxel field fusionを提案する。
提案手法は, ボクセル領域における画像特徴を線として表現し, 融合することにより, モダリティの整合性を維持することを目的としている。
このフレームワークは、さまざまなベンチマークで一貫したゲインを達成し、KITTIとnuScenesデータセットでの従来のフュージョンベースのメソッドを上回っている。
論文 参考訳(メタデータ) (2022-05-31T16:31:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。