Fugu-MT 論文翻訳(概要): FreeBlend: Advancing Concept Blending with Staged Feedback-Driven Interpolation Diffusion

論文の概要: FreeBlend: Advancing Concept Blending with Staged Feedback-Driven Interpolation Diffusion

arxiv url: http://arxiv.org/abs/2502.05606v2
Date: Fri, 14 Feb 2025 14:17:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-17 13:26:31.291811
Title: FreeBlend: Advancing Concept Blending with Staged Feedback-Driven Interpolation Diffusion
Title（参考訳）: FreeBlend: 段階的フィードバック駆動補間拡散による概念ブレンディングの促進
Authors: Yufan Zhou, Haoyu Shen, Huan Wang,
Abstract要約: 概念ブレンディングは、生成モデルにおいて、有望だが未発見の領域である。 FreeBlendは、これらの課題に対処するために設計された、効果的な、トレーニング不要のフレームワークです。
参考スコア（独自算出の注目度）: 12.699651619563188
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Concept blending is a promising yet underexplored area in generative models. While recent approaches, such as embedding mixing and latent modification based on structural sketches, have been proposed, they often suffer from incompatible semantic information and discrepancies in shape and appearance. In this work, we introduce FreeBlend, an effective, training-free framework designed to address these challenges. To mitigate cross-modal loss and enhance feature detail, we leverage transferred image embeddings as conditional inputs. The framework employs a stepwise increasing interpolation strategy between latents, progressively adjusting the blending ratio to seamlessly integrate auxiliary features. Additionally, we introduce a feedback-driven mechanism that updates the auxiliary latents in reverse order, facilitating global blending and preventing rigid or unnatural outputs. Extensive experiments demonstrate that our method significantly improves both the semantic coherence and visual quality of blended images, yielding compelling and coherent results.
Abstract（参考訳）: 概念ブレンディングは、生成モデルにおいて、有望だが未発見の領域である。組込みミキシングや構造スケッチに基づく潜伏修正といった最近の手法が提案されているが、それらは相容れない意味情報や形や外観の相違に悩まされることが多い。本稿では,これらの課題に対処するために設計された,効果的なトレーニングフリーフレームワークであるFreeBlendを紹介する。クロスモーダル損失を軽減し,特徴の詳細を高めるために,コンディショナルインプットとして変換画像埋め込みを利用する。このフレームワークは、潜伏剤間の段階的に増大する補間戦略を採用し、ブレンディング比を段階的に調整し、補助的特徴をシームレスに統合する。さらに,補助潜水剤を逆順に更新し,グローバルブレンディングを容易にし,剛性あるいは不自然な出力を防止するフィードバック駆動機構を導入する。広汎な実験により,本手法はブレンド画像のセマンティックコヒーレンスと視覚的品質の両方を著しく改善し,説得力およびコヒーレントな結果をもたらすことが示された。

関連論文リスト

From Missing Pieces to Masterpieces: Image Completion with Context-Adaptive Diffusion [98.31811240195324]
ConFillは、各拡散ステップで生成された画像とオリジナル画像の差を小さくする新しいフレームワークである。現行の手法より優れており、画像補完の新しいベンチマークが設定されている。
論文参考訳（メタデータ） (2025-04-19T13:40:46Z)
Oscillation Inversion: Understand the structure of Large Flow Model through the Lens of Inversion Method [60.88467353578118]
実世界のイメージを逆転させる固定点インスパイアされた反復的アプローチは収束を達成せず、異なるクラスタ間で振動することを示す。本稿では,画像強調,ストロークベースのリカラー化,および視覚的プロンプト誘導画像編集を容易にする,シンプルで高速な分布転送手法を提案する。
論文参考訳（メタデータ） (2024-11-17T17:45:37Z)
Merging and Splitting Diffusion Paths for Semantically Coherent Panoramas [33.334956022229846]
本稿では,Merge-Attend-Diffuse演算子を提案する。具体的には、拡散経路をマージし、自己および横断的意図をプログラムし、集約された潜在空間で操作する。提案手法は,生成した画像の入力プロンプトと視覚的品質との整合性を維持しつつ,セマンティック・コヒーレンスを増大させる。
論文参考訳（メタデータ） (2024-08-28T09:22:32Z)
ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文参考訳（メタデータ） (2024-08-10T08:53:41Z)
Training-free Composite Scene Generation for Layout-to-Image Synthesis [29.186425845897947]
本稿では,拡散条件下での対角的意味交叉を克服するために,新しい学習自由アプローチを提案する。本稿では,(1)トークン競合を解消し,正確な概念合成を保証するためのトークン間制約,2)画素間関係を改善する自己注意制約,という2つの革新的な制約を提案する。本評価では,拡散過程の導出にレイアウト情報を活用することで,忠実度と複雑さを向上したコンテンツリッチな画像を生成することの有効性を確認した。
論文参考訳（メタデータ） (2024-07-18T15:48:07Z)
Efficient Real-world Image Super-Resolution Via Adaptive Directional Gradient Convolution [80.85121353651554]
畳み込みカーネル内でのカーネル単位の微分演算を導入し、学習可能な方向勾配畳み込みを開発する。これらの畳み込みは、新しい線形重み付け機構と平行に統合され、適応方向勾配畳み込み(DGConv)を形成する。さらに,適応情報相互作用ブロック(AIIBlock)を設計し,テクスチャとコントラストの強化のバランスをとるとともに,相互依存性を慎重に検討し,単純な積み重ねによるリアルSRのためのDGPNetを作成する。
論文参考訳（メタデータ） (2024-05-11T14:21:40Z)
Training-Free Semantic Video Composition via Pre-trained Diffusion Model [96.0168609879295]
現在のアプローチは、主に前景の色と照明を調整したビデオで訓練されており、表面的な調整以上の深い意味の相違に対処するのに苦労している。本研究では,事前知識を付加した事前学習拡散モデルを用いた学習自由パイプラインを提案する。実験の結果,我々のパイプラインは出力の視覚的調和とフレーム間のコヒーレンスを確実にすることがわかった。
論文参考訳（メタデータ） (2024-01-17T13:07:22Z)
Compositional Inversion for Stable Diffusion Models [64.79261401944994]
ユーザ画像から提供される関心の概念を取り入れてパーソナライズされた画像を生成する。既存の方法はしばしば過度に適合する問題に悩まされ、倒立概念の圧倒的な存在が他の望ましい概念の欠如につながっている。本稿では,合成埋め込みのコア分布への反転過程を導出する手法を提案する。
論文参考訳（メタデータ） (2023-12-13T10:57:46Z)
Fine-grained Appearance Transfer with Diffusion Models [23.29713777525402]
画像から画像への変換(I2I)は、構造的コヒーレンスを維持しながら、画像間の視覚的外観を変化させようとしている。本稿では, セマンティックマッチング, 外観伝達, 潜時偏差の様々な側面を統合することで, これらの課題を克服する革新的なフレームワークを提案する。
論文参考訳（メタデータ） (2023-11-27T04:00:04Z)
Contextual Fusion For Adversarial Robustness [0.0]
ディープニューラルネットワークは、通常、1つの特定の情報ストリームを処理し、様々な種類の敵の摂動に影響を受けやすいように設計されている。そこで我々はPlaces-CNNとImagenet-CNNから並列に抽出した背景特徴と前景特徴を組み合わせた融合モデルを開発した。グラデーションをベースとした攻撃では,フュージョンは乱れのないデータの性能を低下させることなく,分類の大幅な改善を可能にする。
論文参考訳（メタデータ） (2020-11-18T20:13:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。