Fugu-MT 論文翻訳(概要): Rethinking Score Distillation as a Bridge Between Image Distributions

論文の概要: Rethinking Score Distillation as a Bridge Between Image Distributions

arxiv url: http://arxiv.org/abs/2406.09417v1
Date: Thu, 13 Jun 2024 17:59:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-14 15:56:26.584651
Title: Rethinking Score Distillation as a Bridge Between Image Distributions
Title（参考訳）: イメージ分布の橋渡しとしてのスコア蒸留の再考
Authors: David McAllister, Songwei Ge, Jia-Bin Huang, David W. Jacobs, Alexei A. Efros, Aleksander Holynski, Angjoo Kanazawa,
Abstract要約: 提案手法は, 劣化した画像(ソース)を自然画像分布(ターゲット)に転送することを目的としている。本手法は,複数の領域にまたがって容易に適用可能であり,特殊な手法の性能のマッチングや評価を行うことができる。テキストから2D、テキストベースのNeRF最適化、絵画を実画像に変換すること、光学錯視生成、および3Dスケッチから実画像に変換することにおいて、その実用性を実証する。
参考スコア（独自算出の注目度）: 97.27476302077545
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Score distillation sampling (SDS) has proven to be an important tool, enabling the use of large-scale diffusion priors for tasks operating in data-poor domains. Unfortunately, SDS has a number of characteristic artifacts that limit its usefulness in general-purpose applications. In this paper, we make progress toward understanding the behavior of SDS and its variants by viewing them as solving an optimal-cost transport path from a source distribution to a target distribution. Under this new interpretation, these methods seek to transport corrupted images (source) to the natural image distribution (target). We argue that current methods' characteristic artifacts are caused by (1) linear approximation of the optimal path and (2) poor estimates of the source distribution. We show that calibrating the text conditioning of the source distribution can produce high-quality generation and translation results with little extra overhead. Our method can be easily applied across many domains, matching or beating the performance of specialized methods. We demonstrate its utility in text-to-2D, text-based NeRF optimization, translating paintings to real images, optical illusion generation, and 3D sketch-to-real. We compare our method to existing approaches for score distillation sampling and show that it can produce high-frequency details with realistic colors.
Abstract（参考訳）: スコア蒸留サンプリング(SDS)は重要なツールとして証明されており、データ・プール領域で動作するタスクに大規模な拡散先行処理を使用することが可能である。残念なことに、SDSは汎用アプリケーションにおいてその有用性を制限する多くの特徴的アーティファクトを持っている。本稿では、ソース分布からターゲット分布への最適コスト輸送経路を解くものとして、SDSとその変種について理解を深める。この新たな解釈の下で、これらの手法は、破損した画像(ソース)を自然画像分布(ターゲット)に転送する。提案手法の特徴は,(1)最適経路の線形近似と(2)音源分布の貧弱な推定によって引き起こされていると論じる。ソース分布のテキストコンディショニングを校正することで,オーバーヘッドの少ない高品質な生成および翻訳結果が得られることを示す。本手法は,複数の領域にまたがって容易に適用可能であり,特殊な手法の性能のマッチングや評価を行うことができる。テキストから2D、テキストベースのNeRF最適化、絵画を実画像に変換すること、光学錯視生成、および3Dスケッチから実画像に変換することにおいて、その実用性を実証する。本手法を既存の蒸留法と比較し,実色で高頻度の細部を生成可能であることを示す。

関連論文リスト

OT-ALD: Aligning Latent Distributions with Optimal Transport for Accelerated Image-to-Image Translation [23.752936213193376]
DDIB (Dual Diffusion Implicit Bridge) は、強力な柔軟性を保ちながらサイクルの一貫性を保ちながら画像から画像への変換を行う手法である。最適輸送理論に基づく新しいI2I翻訳フレームワークOT-ALDを提案する。 OT-ALDはサンプリング効率を20.29%向上し,FIDスコアを平均2.6削減することを示した。
論文参考訳（メタデータ） (2025-11-14T10:57:21Z)
AnchorDS: Anchoring Dynamic Sources for Semantically Consistent Text-to-3D Generation [56.399153019429605]
この研究は、源動力学を無視すると、意味的手がかりを抑えるまたはマージする矛盾した軌跡が得られることを示している。我々は、動的に変化するソース分布を固定されたターゲット分布にマッピングするものとして、テキストから3Dまでの最適化を再構成する。 AnchorDS(AnchorDS)は、画像の条件に応じた状態適応型ガイダンスを提供する、改良されたスコア蒸留機構である。
論文参考訳（メタデータ） (2025-11-12T09:51:23Z)
Walking the Schrödinger Bridge: A Direct Trajectory for Text-to-3D Generation [51.337622918786074]
本稿では,新しいテキストから3D生成フレームワークであるTray-Centric Distillation (TraCe)を紹介する。 TraCeは、最先端技術よりも優れた品質と忠実性を実現している。
論文参考訳（メタデータ） (2025-11-06T09:21:57Z)
Learning Latent Representations for Image Translation using Frequency Distributed CycleGAN [7.610968152027164]
Fd-CycleGANはイメージ・ツー・イメージ(I2I)翻訳フレームワークであり、遅延表現学習を強化して実データ分布を近似する。 Horse2Zebra、Monet2Photo、および合成強化されたStrike-offデータセットなど、さまざまなデータセットに関する実験を行います。その結果,周波数誘導型潜時学習は画像翻訳タスクの一般化を著しく向上させることがわかった。
論文参考訳（メタデータ） (2025-08-05T12:59:37Z)
A Diffusion Model Translator for Efficient Image-to-Image Translation [60.86381807306705]
本稿では,拡散モデルトランスレータ (DMT) と呼ばれる,軽量トランスレータを用いた拡散モデルを効率よく実装する手法を提案する。我々は、画像スタイリング、画像のカラー化、画像へのセグメント化、画像へのスケッチなど、さまざまなI2Iアプリケーションに対するアプローチを評価し、その有効性と汎用性を検証した。
論文参考訳（メタデータ） (2025-02-01T04:01:24Z)
Generalizable Origin Identification for Text-Guided Image-to-Image Diffusion Models [39.234894330025114]
テキストインプロンプトに基づく画像の翻訳において,テキスト誘導画像から画像への拡散モデルが優れている。これは、テキスト誘導画像-画像拡散モデル(ID$2$)の原点識別タスクの導入を動機付けます。 ID$2$の直接的な解決策は、クエリと参照イメージの両方から機能を抽出し比較するために、特別なディープ埋め込みモデルをトレーニングすることである。
論文参考訳（メタデータ） (2025-01-04T20:34:53Z)
Efficient Dataset Distillation via Diffusion-Driven Patch Selection for Improved Generalization [34.53986517177061]
本稿では, 既存の拡散式蒸留法に対する新しい枠組みを提案し, 生成ではなく拡散モデルを用いて選択する。提案手法は,入力画像とテキストプロンプトに基づいて拡散モデルから発生するノイズを予測し,各ペアの損失を算出する。この合理化フレームワークは単一段階の蒸留プロセスを実現するとともに,我々の手法が様々なメトリクスにわたって最先端の手法より優れていることを示す広範な実験を行った。
論文参考訳（メタデータ） (2024-12-13T08:34:46Z)
High-Precision Dichotomous Image Segmentation via Probing Diffusion Capacity [69.32473738284374]
拡散モデルは、例外的な品質、詳細な解像度、強い文脈認識を提供することによって、テキストと画像の合成に革命をもたらした。本稿では,拡散モデルにおける事前学習されたU-Netのポテンシャルを利用する拡散駆動セグメンテーションモデルDiffDISを提案する。 DIS5Kデータセットの実験は、DiffDISの優位性を示し、合理化された推論プロセスを通じて最先端の結果を達成する。
論文参考訳（メタデータ） (2024-10-14T02:49:23Z)
DreamMapping: High-Fidelity Text-to-3D Generation via Variational Distribution Mapping [20.7584503748821]
SDS (Score Distillation Sampling) はテキストから3D生成の一般的な技術として登場し、テキストから2Dのガイダンスからビュー依存情報を蒸留することで3Dコンテンツ作成を可能にする。我々は、SDSの徹底的な解析を行い、その定式化を洗練し、中心となる設計はレンダリングされた画像の分布をモデル化することである。本稿では,分散に基づく生成の劣化事例として,画像の描画を考慮し,分散モデリングプロセスの迅速化を図る,変分分布マッピング (VDM) という新しい手法を提案する。
論文参考訳（メタデータ） (2024-09-08T14:04:48Z)
Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文参考訳（メタデータ） (2024-03-12T00:02:03Z)
Correcting Diffusion Generation through Resampling [32.93858075964824]
本研究では, 生成画像と接地画像の分布差を低減できる粒子フィルタリングフレームワークを提案する。提案手法は, 画像生成タスクにおいて, 欠落したオブジェクトの誤りを効果的に補正し, 画質を向上させる。
論文参考訳（メタデータ） (2023-12-10T23:35:13Z)
Contrastive Denoising Score for Text-guided Latent Diffusion Image Editing [58.48890547818074]
潜在拡散モデル(LDM)に対するコントラストデノナイジングスコア(CUT)の強力な修正を提案する。提案手法により,ゼロショット画像から画像への変換とニューラルフィールド(NeRF)の編集が可能となり,入力と出力の間の構造的対応が達成される。
論文参考訳（メタデータ） (2023-11-30T15:06:10Z)
Denoising Diffusion Bridge Models [54.87947768074036]
拡散モデルは、プロセスを使用してデータにノイズをマッピングする強力な生成モデルである。画像編集のような多くのアプリケーションでは、モデル入力はランダムノイズではない分布から来る。本研究では, DDBM(Denoising Diffusion Bridge Models)を提案する。
論文参考訳（メタデータ） (2023-09-29T03:24:24Z)
Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文参考訳（メタデータ） (2023-04-02T10:25:09Z)
Uncertainty Inspired Underwater Image Enhancement [45.05141499761876]
劣化した水中画像の強調分布を学習するための新しい確率的ネットワークを提案する。拡張分布を学習することにより,参照マップラベリングで導入されたバイアスに対処できる。実験結果から,本手法は可能な拡張予測のサンプリングを可能にすることが示された。
論文参考訳（メタデータ） (2022-07-20T06:42:28Z)
Detecting Deepfakes with Self-Blended Images [37.374772758057844]
本稿では,深度情報を検出するために,SBI(Self-blended Image)と呼ばれる新しい合成トレーニングデータを提案する。 SBIは、単一のプリスタン画像から擬似ソースとターゲットイメージを混合して生成される。我々は,FF++,CDF,DFD,DFDC,DFDCP,FFIWデータセットの最先端手法との比較を行った。
論文参考訳（メタデータ） (2022-04-18T15:44:35Z)
Dual Diffusion Implicit Bridges for Image-to-Image Translation [104.59371476415566]
画像と画像の共通翻訳法は、ソースドメインとターゲットドメインの両方のデータに対する共同トレーニングに依存している。本稿では拡散モデルに基づく画像変換法であるDual Diffusion Implicit Bridges (DDIBs)を提案する。 DDIBは任意のソースターゲットドメイン間の変換を可能にし、それぞれのドメイン上で独立に訓練された拡散モデルを与える。
論文参考訳（メタデータ） (2022-03-16T04:10:45Z)
Pixel-based Facial Expression Synthesis [1.7056768055368383]
本稿では,各出力画素が1つの入力画素のみを観測する,画素ベースの表情合成手法を提案する。提案するモデルは2桁の規模で,リソース制約のあるデバイスへの展開に適している。
論文参考訳（メタデータ） (2020-10-27T16:00:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。