論文の概要: LBM: Latent Bridge Matching for Fast Image-to-Image Translation
- arxiv url: http://arxiv.org/abs/2503.07535v1
- Date: Mon, 10 Mar 2025 17:03:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 18:54:12.290612
- Title: LBM: Latent Bridge Matching for Fast Image-to-Image Translation
- Title(参考訳): LBM: 高速画像変換のための遅延ブリッジマッチング
- Authors: Clément Chadebec, Onur Tasar, Sanjeev Sreetharan, Benjamin Aubin,
- Abstract要約: 遅延ブリッジマッチング(LBM)は、高速な画像から画像への変換を実現するために、遅延空間におけるブリッジマッチングに依存する新しい、汎用的でスケーラブルな手法である。
提案手法は,1つの推論ステップのみを用いて,様々な画像・画像タスクの最先端結果に到達可能であることを示す。
- 参考スコア(独自算出の注目度): 6.755999813057451
- License:
- Abstract: In this paper, we introduce Latent Bridge Matching (LBM), a new, versatile and scalable method that relies on Bridge Matching in a latent space to achieve fast image-to-image translation. We show that the method can reach state-of-the-art results for various image-to-image tasks using only a single inference step. In addition to its efficiency, we also demonstrate the versatility of the method across different image translation tasks such as object removal, normal and depth estimation, and object relighting. We also derive a conditional framework of LBM and demonstrate its effectiveness by tackling the tasks of controllable image relighting and shadow generation. We provide an open-source implementation of the method at https://github.com/gojasper/LBM.
- Abstract(参考訳): 本稿では,高速な画像から画像への変換を実現するために,遅延空間におけるブリッジマッチングに依存する,汎用的でスケーラブルな新しい手法であるLatent Bridge Matching (LBM)を紹介する。
提案手法は,1つの推論ステップのみを用いて,様々な画像・画像タスクの最先端結果に到達可能であることを示す。
また, その効率性に加えて, オブジェクト除去, 正規および深度推定, オブジェクトの照準など, さまざまな画像翻訳タスクに対して, 提案手法の汎用性を示す。
また、LBMの条件付き枠組みを導出し、制御可能な画像リライトと影生成のタスクに取り組むことで、その効果を実証する。
我々は、このメソッドのオープンソース実装をhttps://github.com/gojasper/LBMで提供します。
関連論文リスト
- A Diffusion Model Translator for Efficient Image-to-Image Translation [60.86381807306705]
本稿では,拡散モデルトランスレータ (DMT) と呼ばれる,軽量トランスレータを用いた拡散モデルを効率よく実装する手法を提案する。
我々は、画像スタイリング、画像のカラー化、画像へのセグメント化、画像へのスケッチなど、さまざまなI2Iアプリケーションに対するアプローチを評価し、その有効性と汎用性を検証した。
論文 参考訳(メタデータ) (2025-02-01T04:01:24Z) - Materialist: Physically Based Editing Using Single-Image Inverse Rendering [50.39048790589746]
本稿では、学習に基づくアプローチとプログレッシブな微分可能レンダリングを組み合わせた手法を提案する。
提案手法は,より現実的な光物質相互作用,正確な影,大域的な照明を実現する。
また,全シーン形状を必要とせず,効果的に機能する材料透過性編集手法を提案する。
論文 参考訳(メタデータ) (2025-01-07T11:52:01Z) - Every Pixel Has its Moments: Ultra-High-Resolution Unpaired Image-to-Image Translation via Dense Normalization [4.349838917565205]
画素レベルの統計モーメントを推定するために設計されたDense Normalization層を導入する。
このアプローチは、局所色と色調のコントラストを同時に保存しながら、ティリングアーティファクトを効果的に減少させる。
我々の研究は、未ペア画像から画像への翻訳の範囲内で任意の解像度の画像を扱うための将来の探索の道を開く。
論文 参考訳(メタデータ) (2024-07-05T04:14:50Z) - ToddlerDiffusion: Interactive Structured Image Generation with Cascaded Schrödinger Bridge [63.00793292863]
ToddlerDiffusionは、RGB画像生成の複雑なタスクを、よりシンプルで解釈可能なステージに分解するための新しいアプローチである。
提案手法はToddler Diffusionと呼ばれ,それぞれが中間表現を生成する責務を担っている。
ToddlerDiffusionは、常に最先端のメソッドより優れています。
論文 参考訳(メタデータ) (2023-11-24T15:20:01Z) - CLIP-PAE: Projection-Augmentation Embedding to Extract Relevant Features for a Disentangled, Interpretable, and Controllable Text-Guided Face Manipulation [4.078926358349661]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、画像とテキストを共同の潜在空間に埋め込むことでブリッジする。
共同空間における画像とテキストの埋め込みの相違により、最適化対象としてテキストの埋め込みを用いることで、結果の画像に望ましくないアーティファクトがしばしば導入される。
テキスト誘導画像操作の性能向上のための最適化ターゲットとして,CLIPプロジェクション拡張埋め込み(PAE)を導入する。
論文 参考訳(メタデータ) (2022-10-08T05:12:25Z) - BBDM: Image-to-image Translation with Brownian Bridge Diffusion Models [50.39417112077254]
BBDM(Brownian Bridge Diffusion Model)に基づく画像から画像への変換手法を提案する。
我々の知る限りでは、画像から画像への変換のためのブラウン橋拡散プロセスを提案する最初の作品である。
論文 参考訳(メタデータ) (2022-05-16T13:47:02Z) - Memory Efficient Meta-Learning with Large Images [62.70515410249566]
数ショットの分類に対するメタ学習アプローチは、新しいタスクを学ぶために、ほんの数ステップの最適化やシングルフォワードパスを必要とするテスト時に計算的に効率的である。
この制限は、最大1000のイメージを含むタスクの全体サポートセットが、最適化ステップを取る前に処理されなければならないために生じる。
本稿では,1つのGPU上の大容量画像からなる大規模タスクのメタトレーニングを可能にする,汎用的でメモリ効率の良いエピソード・トレーニング手法であるLITEを提案する。
論文 参考訳(メタデータ) (2021-07-02T14:37:13Z) - Few-Shot Unsupervised Image-to-Image Translation on complex scenes [0.0]
本研究では,1つのオブジェクトの翻訳のために開発された手法が,より多彩でコンテンツに富んだ画像に対してどのように機能するかを評価する。
本稿では,オブジェクト検出に基づくデータセットの拡張手法を提案する。さらに,オブジェクト検出のパワーを活用するために,FUNITフレームワークを適用する方法を提案する。
論文 参考訳(メタデータ) (2021-06-07T16:33:19Z) - BoundarySqueeze: Image Segmentation as Boundary Squeezing [104.43159799559464]
本研究では,オブジェクトとシーンの微細な高画質画像分割のための新しい手法を提案する。
形態素画像処理技術による拡張と浸食に着想を得て,画素レベルのセグメンテーション問題をスクイーズ対象境界として扱う。
提案手法は,COCO,Cityscapesのインスタンス・セグメンテーション・セグメンテーション・セグメンテーションにおいて大きく向上し,同一条件下での精度・速度ともに従来のPointRendよりも優れていた。
論文 参考訳(メタデータ) (2021-05-25T04:58:51Z) - Multiple GAN Inversion for Exemplar-based Image-to-Image Translation [0.0]
実例に基づく画像-画像変換のための複数GANインバージョンを提案する。
提案するMultiple GAN Inversionは,階層数選択における自己決定アルゴリズムによる人間の介入を回避する。
実験結果から,提案手法の利点を既存の最先端の画像画像変換法と比較した。
論文 参考訳(メタデータ) (2021-03-26T13:46:14Z) - GAIT: Gradient Adjusted Unsupervised Image-to-Image Translation [5.076419064097734]
対向損失を利用して、翻訳された画像セットと対象画像セットの分布を一致させる。
これにより、2つの領域が例えば一様領域において異なる辺分布を持つようなアーティファクトが生成される。
本稿では,翻訳後の一様領域を保存する教師なしIITを提案する。
論文 参考訳(メタデータ) (2020-09-02T08:04:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。