論文の概要: Improving Image-to-Image Translation via a Rectified Flow Reformulation
- arxiv url: http://arxiv.org/abs/2603.20186v1
- Date: Fri, 20 Mar 2026 17:59:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:39.282352
- Title: Improving Image-to-Image Translation via a Rectified Flow Reformulation
- Title(参考訳): 直流改質による画像間翻訳の改良
- Authors: Satoshi Iizuka, Shun Okamoto, Kazuhiro Fukui,
- Abstract要約: Image-to-Image Rectified Flow Reformulationは、標準I2I回帰ネットワークを連続時間輸送モデルとして再キャストする。
提案手法は, チャネルワイド結合によるバックボーン入力を, グランドトラスターゲットのノイズ破損バージョンに拡張する。
- 参考スコア(独自算出の注目度): 6.198298884034955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose Image-to-Image Rectified Flow Reformulation (I2I-RFR), a practical plug-in reformulation that recasts standard I2I regression networks as continuous-time transport models. While pixel-wise I2I regression is simple, stable, and easy to adapt across tasks, it often over-smooths ill-posed and multimodal targets, whereas generative alternatives often require additional components, task-specific tuning, and more complex training and inference pipelines. Our method augments the backbone input by channel-wise concatenation with a noise-corrupted version of the ground-truth target and optimizes a simple t-reweighted pixel loss. This objective admits a rectified-flow interpretation via an induced velocity field, enabling ODE-based progressive refinement at inference time while largely preserving the standard supervised training pipeline. In most cases, adopting I2I-RFR requires only expanding the input channels, and inference can be performed with a few explicit solver steps (e.g., 3 steps) without distillation. Extensive experiments across multiple image-to-image translation and video restoration tasks show that I2I-RFR generally improves performance across a wide range of tasks and backbones, with particularly clear gains in perceptual quality and detail preservation. Overall, I2I-RFR provides a lightweight way to incorporate continuous-time refinement into conventional I2I models without requiring a heavy generative pipeline.
- Abstract(参考訳): 本研究では,標準I2Iレグレッションネットワークを連続時間輸送モデルとして再キャストする実用的なプラグイン再構成であるイメージ・トゥ・イメージ・リクティファイド・フロー・リフォーメーション(I2I-RFR)を提案する。
画素単位のI2Iレグレッションは単純で安定しており、タスク間で適応しやすいが、しばしば過度にスムースであり、マルチモーダルなターゲットであるのに対し、ジェネレーティブな代替手段には追加のコンポーネント、タスク固有のチューニング、より複雑なトレーニングと推論パイプラインが必要である。
提案手法は, チャネルワイド結合によるバックボーン入力と, 地中トラス目標のノイズ補正バージョンを併用し, 単純なt重み付き画素損失を最適化する。
この目的は、誘導速度場による修正流れの解釈を認め、標準教師付きトレーニングパイプラインをほとんど保存しつつ、推論時にODEベースのプログレッシブリファインメントを可能にする。
多くの場合、I2I-RFRの採用は入力チャネルの拡張のみを必要とし、推論は蒸留なしでいくつかの明示的な解法ステップ(例:3ステップ)で行うことができる。
I2I-RFRは様々なタスクやバックボーンにまたがって性能を向上し、特に知覚品質やディテールの保存が顕著に向上している。
全体として、I2I-RFRは、過剰な生成パイプラインを必要とすることなく、従来のI2Iモデルに継続的改善を組み込む軽量な方法を提供する。
関連論文リスト
- Balanced conic rectified flow [19.226787997122987]
整流流は、通常の微分方程式(ODE)を通して2つの分布間の滑らかな輸送マッピングを学習する生成モデルである
本研究では,元の修正流れの限界を実験的に明らかにし,実像をトレーニングプロセスに組み込む新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-10-29T07:06:01Z) - Prompt-Guided Dual Latent Steering for Inversion Problems [16.58915166460579]
劣化した画像を拡散モデルの潜在空間に変換することは困難である。
イメージを1つの潜在ベクトルにエンコードする現在の手法は、構造的忠実度と意味論的精度のバランスをとるのに苦労している。
Prompt-Guided Dual Latent Steering (PDLS) はRectified Flowモデル上に構築された新しいフレームワークで,その安定な反転経路を実現する。
PDLSはインバージョンプロセスを、ソースの整合性を維持する構造経路と、プロンプトによって導かれる意味経路の2つの相補的なストリームに分解する。
論文 参考訳(メタデータ) (2025-09-23T04:11:06Z) - Runge-Kutta Approximation and Decoupled Attention for Rectified Flow Inversion and Semantic Editing [21.585366155855894]
微分方程式のルンゲ・クッタ解法に基づく整流モデルの高次インバージョン法を提案する。
本稿では,多モード拡散変換器内でテキストと画像の注意をゆがめる新しいメカニズムであるDecoupled Diffusion Transformer Attention(DDTA)を紹介する。
本手法は,忠実度と編集性の観点から,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-09-16T09:41:14Z) - Straighten Viscous Rectified Flow via Noise Optimization [24.065483360595458]
Reflow操作は、ノイズと画像間の決定論的結合を構築することにより、トレーニング中の補正流れの推論軌跡を的確にすることを目的としている。
本稿では,Reflowにおける限界,特に構築された決定論的結合と実画像の分布ギャップに起因する高品質な画像を高速に生成できないことを明らかにする。
本稿では,エンコーダとニューラル速度場を組み合わせた共同トレーニングフレームワークであるStraighten Viscous Rectified Flow via Noise Optimization (VRFNO)を提案する。
論文 参考訳(メタデータ) (2025-07-14T12:35:17Z) - DCI: Dual-Conditional Inversion for Boosting Diffusion-Based Image Editing [73.12011187146481]
Diffusionモデル内のインバージョンは、実または生成された画像の潜時雑音表現を復元することを目的としている。
ほとんどの反転アプローチは、復元精度と編集の柔軟性の間の本質的にのトレードオフに悩まされている。
本稿ではDCI(Dual-Conditional Inversion)について紹介する。
論文 参考訳(メタデータ) (2025-06-03T07:46:44Z) - Pixel to Gaussian: Ultra-Fast Continuous Super-Resolution with 2D Gaussian Modeling [50.34513854725803]
Arbitrary-scale Super- resolution (ASSR) は、低解像度(LR)入力から任意のアップサンプリング係数で高解像度(HR)イメージを再構成することを目的としている。
本稿では,Gaussian Splattingを用いたLR画像から2次元連続HR信号を明示的に再構成する,Pixel-to-Gaussianパラダイムを用いた新しいContinuousSRフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-09T13:43:57Z) - Improving Consistency in Diffusion Models for Image Super-Resolution [28.945663118445037]
拡散法における2種類の矛盾を観測する。
セマンティックとトレーニング-推論の組み合わせを扱うために、ConsisSRを導入します。
本手法は,既存拡散モデルにおける最先端性能を示す。
論文 参考訳(メタデータ) (2024-10-17T17:41:52Z) - FiTv2: Scalable and Improved Flexible Vision Transformer for Diffusion Model [76.84519526283083]
textbfFlexible Vision Transformer (FiT) は、テキスト非制限解像度とアスペクト比で画像を生成するために設計されたトランスアーキテクチャである。
FiTv2は、高度なトレーニングフリーな外挿技術を導入する際に、FiTの収束速度を2倍に向上させる。
総合的な実験は、FiTv2の幅広い解像度での異常な性能を実証している。
論文 参考訳(メタデータ) (2024-10-17T15:51:49Z) - FiT: Flexible Vision Transformer for Diffusion Model [81.85667773832279]
本稿では,非制限解像度とアスペクト比で画像を生成するためのトランスフォーマーアーキテクチャを提案する。
静的解像度グリッドとしてイメージを認識する従来の方法とは異なり、FiTは動的サイズのトークンのシーケンスとしてイメージを概念化している。
総合的な実験は、幅広い解像度でFiTの異常な性能を実証している。
論文 参考訳(メタデータ) (2024-02-19T18:59:07Z) - Effective Invertible Arbitrary Image Rescaling [77.46732646918936]
Invertible Neural Networks (INN)は、ダウンスケーリングとアップスケーリングのサイクルを共同で最適化することにより、アップスケーリングの精度を大幅に向上させることができる。
本研究の1つのモデルのみをトレーニングすることにより、任意の画像再スケーリングを実現するために、単純で効果的な非可逆的再スケーリングネットワーク(IARN)を提案する。
LR出力の知覚品質を損なうことなく、双方向任意再スケーリングにおいて最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-09-26T22:22:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。