論文の概要: VMDiff: Visual Mixing Diffusion for Limitless Cross-Object Synthesis
- arxiv url: http://arxiv.org/abs/2509.23605v1
- Date: Sun, 28 Sep 2025 03:17:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.320845
- Title: VMDiff: Visual Mixing Diffusion for Limitless Cross-Object Synthesis
- Title(参考訳): VMDiff: 限界のないクロスオブジェクト合成のためのビジュアル混合拡散
- Authors: Zeren Xiong, Yue Yu, Zedong Zhang, Shuo Chen, Jian Yang, Jun Li,
- Abstract要約: 本稿では,ノイズレベルと潜時レベルの両方で2つの入力画像を統合することで,単一のコヒーレントオブジェクトを合成する拡散ベースフレームワークを提案する。
本手法は, 視覚的品質, 意味的整合性, 人格的創造性において, 高いベースラインを達成している。
- 参考スコア(独自算出の注目度): 23.50866105623598
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Creating novel images by fusing visual cues from multiple sources is a fundamental yet underexplored problem in image-to-image generation, with broad applications in artistic creation, virtual reality and visual media. Existing methods often face two key challenges: coexistent generation, where multiple objects are simply juxtaposed without true integration, and bias generation, where one object dominates the output due to semantic imbalance. To address these issues, we propose Visual Mixing Diffusion (VMDiff), a simple yet effective diffusion-based framework that synthesizes a single, coherent object by integrating two input images at both noise and latent levels. Our approach comprises: (1) a hybrid sampling process that combines guided denoising, inversion, and spherical interpolation with adjustable parameters to achieve structure-aware fusion, mitigating coexistent generation; and (2) an efficient adaptive adjustment module, which introduces a novel similarity-based score to automatically and adaptively search for optimal parameters, countering semantic bias. Experiments on a curated benchmark of 780 concept pairs demonstrate that our method outperforms strong baselines in visual quality, semantic consistency, and human-rated creativity.
- Abstract(参考訳): 複数のソースから視覚的手がかりを融合させることで、新しい画像を作成することは、画像と画像の生成において、根本的な未発見の問題であり、芸術的創造、バーチャルリアリティ、ビジュアルメディアに幅広い応用がある。
既存の手法はしばしば2つの重要な課題に直面している: 共存生成、複数のオブジェクトが真の統合なしにジャクサプリメントされる、バイアス生成、そして1つのオブジェクトが意味的不均衡のために出力を支配している。
これらの問題に対処するために,単一で一貫性のあるオブジェクトを合成し,ノイズレベルと潜時レベルの両方で2つの入力画像を統合する,シンプルかつ効果的な拡散ベースフレームワークであるVisual Mixing Diffusion (VMDiff)を提案する。
提案手法は,(1)適応的パラメータを自動的かつ適応的に探索する,新しい類似度に基づくスコアを導入し,意味バイアスに対処する,効率的な適応調整モジュールである。
780のコンセプトペアのキュレートされたベンチマーク実験により、我々の手法は視覚的品質、セマンティックな一貫性、人間の評価された創造性において、強いベースラインを上回ります。
関連論文リスト
- Mind the Gap: Aligning Vision Foundation Models to Image Feature Matching [31.42132290162457]
IMD (Image Feature Matching with a Pre-trained Diffusion model) と呼ばれる新しいフレームワークを2つのパーツで導入する。
グローバルセマンティクスを重視したコントラッシブラーニングに基づく基礎モデルを用いた支配的なソリューションとは異なり、生成的拡散モデルを統合する。
提案したIMMは,評価されたベンチマークにおいて新たな最先端性を確立し,IMIMの優れた12%の改善は,この手法の誤認識を効果的に軽減することを示す。
論文 参考訳(メタデータ) (2025-07-14T14:28:15Z) - Consistent Human Image and Video Generation with Spatially Conditioned Diffusion [82.4097906779699]
一貫性のある人中心画像とビデオ合成は、所定の参照画像との外観整合性を維持しつつ、新しいポーズを持つ画像を生成することを目的としている。
我々は,課題を空間条件付き塗装問題とみなし,対象画像をインペイントして参照との外観整合性を維持する。
このアプローチにより、参照機能により、統一された認知ネットワーク内でのポーズ準拠のターゲットの生成をガイドすることができる。
論文 参考訳(メタデータ) (2024-12-19T05:02:30Z) - DreamMover: Leveraging the Prior of Diffusion Models for Image Interpolation with Large Motion [35.60459492849359]
本研究では,大きな動きを持つ画像対から中間画像を生成する問題について検討する。
大きな動きのため、中間的な意味情報は入力画像に欠落する可能性がある。
3つの主要コンポーネントを持つ新しいイメージフレームワークであるDreamMoverを提案する。
論文 参考訳(メタデータ) (2024-09-15T04:09:12Z) - OneActor: Consistent Character Generation via Cluster-Conditioned Guidance [29.426558840522734]
我々はOneActorと呼ばれる新しいワンショットチューニングパラダイムを提案する。
プロンプトのみによって駆動される一貫した主題生成を効率よく行う。
提案手法は多目的生成が可能であり, 一般的な拡散拡張と互換性がある。
論文 参考訳(メタデータ) (2024-04-16T03:45:45Z) - Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion
Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。
本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。
提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文 参考訳(メタデータ) (2023-12-10T22:07:42Z) - Layered Rendering Diffusion Model for Controllable Zero-Shot Image Synthesis [15.76266032768078]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
まず、摂動分布の基本的な空間的キューとして視覚誘導を導入する。
本稿では,複数のレイヤからなる画像レンダリングプロセスを構築する汎用フレームワークであるLayered Rendering Diffusion (LRDiff)を提案する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Single Stage Virtual Try-on via Deformable Attention Flows [51.70606454288168]
仮想試行は、ショップ内服と基準人物画像が与えられた写真リアルなフィッティング結果を生成することを目的としている。
マルチフロー推定に変形性アテンションスキームを適用した,変形性アテンションフロー(DAFlow)を新たに開発した。
提案手法は,定性的かつ定量的に最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-07-19T10:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。