論文の概要: BlobCtrl: Taming Controllable Blob for Element-level Image Editing
- arxiv url: http://arxiv.org/abs/2503.13434v2
- Date: Wed, 01 Oct 2025 16:40:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 14:33:21.539955
- Title: BlobCtrl: Taming Controllable Blob for Element-level Image Editing
- Title(参考訳): BlobCtrl:要素レベルの画像編集のための制御可能なブロブのカスタマイズ
- Authors: Yaowei Li, Lingen Li, Zhaoyang Zhang, Xiaoyu Li, Guangzhi Wang, Hongxiang Li, Xiaodong Cun, Ying Shan, Yuexian Zou,
- Abstract要約: BlobCtrlは確率的ブロブに基づく表現に基づく要素レベルの画像編集のためのフレームワークである。
ブロブをビジュアルプリミティブとして扱うことで、BlobCtrlはレイアウトを外観から切り離し、きめ細かい制御可能なオブジェクトレベルの操作を可能にする。
- 参考スコア(独自算出の注目度): 114.70394950139188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As user expectations for image editing continue to rise, the demand for flexible, fine-grained manipulation of specific visual elements presents a challenge for current diffusion-based methods. In this work, we present BlobCtrl, a framework for element-level image editing based on a probabilistic blob-based representation. Treating blobs as visual primitives, BlobCtrl disentangles layout from appearance, affording fine-grained, controllable object-level manipulation. Our key contributions are twofold: (1) an in-context dual-branch diffusion model that separates foreground and background processing, incorporating blob representations to explicitly decouple layout and appearance, and (2) a self-supervised disentangle-then-reconstruct training paradigm with an identity-preserving loss function, along with tailored strategies to efficiently leverage blob-image pairs. To foster further research, we introduce BlobData for large-scale training and BlobBench, a benchmark for systematic evaluation. Experimental results demonstrate that BlobCtrl achieves state-of-the-art performance in a variety of element-level editing tasks, such as object addition, removal, scaling, and replacement, while maintaining computational efficiency. Project Webpage: https://liyaowei-stu.github.io/project/BlobCtrl/
- Abstract(参考訳): 画像編集に対するユーザの期待が高まるにつれて、フレキシブルできめ細かな視覚要素の操作に対する需要が、現在の拡散ベースの手法の課題となっている。
本稿では,確率的ブロブに基づく表現に基づく要素レベルの画像編集フレームワークであるBlobCtrlを提案する。
ブロブをビジュアルプリミティブとして扱うことで、BlobCtrlはレイアウトを外観から切り離し、きめ細かい制御可能なオブジェクトレベルの操作を可能にする。
主な貢献は,(1)前景と背景処理を分離し,レイアウトと外観を明確に分離するためのブロブ表現を組み込んだコンテキスト内二重ブランチ拡散モデル,(2)アイデンティティ保存損失関数を備えた自己教師付きディエンタングル・タン再構築トレーニングパラダイム,および,ブロブとイメージのペアを効果的に活用するための調整戦略である。
さらなる研究を促進するために,大規模トレーニングのためのBlobDataと,体系的評価のためのベンチマークであるBlobBenchを紹介する。
実験結果から,BlobCtrlは,オブジェクトの追加,削除,スケーリング,置換など,さまざまな要素レベルの編集タスクにおいて,計算効率を維持しながら,最先端のパフォーマンスを実現することが示された。
プロジェクトWebページ:https://liyaowei-stu.github.io/project/BlobCtrl/
関連論文リスト
- Create Anything Anywhere: Layout-Controllable Personalized Diffusion Model for Multiple Subjects [13.980211126764349]
LCP-Diffusionは、被写体識別をフレキシブルなレイアウトガイダンスと統合した新しいフレームワークである。
実験により、LCP拡散はアイデンティティ保存とレイアウト制御の両面で優れていることが確認された。
論文 参考訳(メタデータ) (2025-05-27T08:57:07Z) - BlobGEN-Vid: Compositional Text-to-Video Generation with Blob Video Representations [82.94002870060045]
既存のビデオ生成モデルは、複雑なテキストプロンプトに従い、複数のオブジェクトを合成するのに苦労する。
我々は,BlobGEN-Vidというブロブグラウンドビデオ拡散モデルを開発し,ユーザがオブジェクトの動きを制御し,細かいオブジェクトの外観を制御できるようにする。
U-NetとDiTをベースとした動画拡散モデルに基づいてBlobGEN-Vidを構築する。
論文 参考訳(メタデータ) (2025-01-13T19:17:06Z) - A Plug-and-Play Method for Rare Human-Object Interactions Detection by Bridging Domain Gap [50.079224604394]
textbfContext-textbfEnhanced textbfFeature textbfAment (CEFA) と呼ばれる新しいモデルに依存しないフレームワークを提案する。
CEFAは機能アライメントモジュールとコンテキスト拡張モジュールで構成される。
本手法は, 稀なカテゴリにおけるHOIモデルの検出性能を向上させるために, プラグアンドプレイモジュールとして機能する。
論文 参考訳(メタデータ) (2024-07-31T08:42:48Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Deep Structure and Attention Aware Subspace Clustering [29.967881186297582]
本稿では,新しいサブスペースクラスタリング(DSASC)を提案する。
視覚変換器を用いて特徴を抽出し,抽出した特徴を2つの部分,構造特徴,内容特徴に分割する。
我々の手法は最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-25T01:19:47Z) - Optimal Transport Aggregation for Visual Place Recognition [9.192660643226372]
SALADは,NetVLADの局所的特徴のソフトアサインを最適な輸送問題としてクラスタに再配置する。
SALADでは,機能間クラスタ関係とクラスタ間クラスタ関係の両方を考慮するとともに,非形式的と考えられる特徴を選択的に破棄する'ダストビン'クラスタも導入する。
我々のシングルステージ手法は、パブリックなVPRデータセットの単一ステージベースラインを超えるだけでなく、2段階の手法を超越し、コストを大幅に高めに再ランク付けする。
論文 参考訳(メタデータ) (2023-11-27T15:46:19Z) - ComPtr: Towards Diverse Bi-source Dense Prediction Tasks via A Simple
yet General Complementary Transformer [91.43066633305662]
本稿では,多種多様な二ソース密度予測タスクのためのアンダーラインComPlementaryアンダーライン変換器textbfComPtrを提案する。
ComPtrは異なる入力を等しく扱い、変換器上にシーケンス・ツー・シーケンスの形で効率的な密な相互作用モデルを構築する。
論文 参考訳(メタデータ) (2023-07-23T15:17:45Z) - Multi-level Second-order Few-shot Learning [111.0648869396828]
教師付きまたは教師なしの少数ショット画像分類と少数ショット動作認識のためのマルチレベル2次数列学習ネットワーク(MlSo)を提案する。
我々は、パワーノーマライズされた二階学習者ストリームと、複数のレベルの視覚的抽象化を表現する機能を組み合わせた、いわゆる2階学習者ストリームを活用している。
我々は,Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC, CUB Birds, Stanford Dogs, Cars, HMDB51, UCF101, mini-MITなどのアクション認識データセットなどの標準データセットに対して,優れた結果を示す。
論文 参考訳(メタデータ) (2022-01-15T19:49:00Z) - Joint Self-Attention and Scale-Aggregation for Self-Calibrated Deraining
Network [13.628218953897946]
本稿では,JDNetとよばれる有効アルゴリズムを提案する。
自己校正畳み込みを用いたスケール・アグリゲーション・セルフアグリゲーション・モジュールを巧みに設計することにより,提案モデルはより優れたデコレーション結果が得られる。
論文 参考訳(メタデータ) (2020-08-06T17:04:34Z) - Learning Semantically Enhanced Feature for Fine-Grained Image
Classification [27.136912902584093]
提案手法は,グローバルな特徴のサブ機能のセマンティクスを強化することで,きめ細かい特徴を学習する。
提案手法はパラメータ同型であり,エンドツーエンドトレーニング用のプラグイン・アンド・プレイモジュールとして,バックボーンモデルに容易に組み込むことができる。
論文 参考訳(メタデータ) (2020-06-24T03:41:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。