Fugu-MT 論文翻訳(概要): StableMotion: Repurposing Diffusion-Based Image Priors for Motion Estimation

論文の概要: StableMotion: Repurposing Diffusion-Based Image Priors for Motion Estimation

arxiv url: http://arxiv.org/abs/2505.06668v1
Date: Sat, 10 May 2025 14:58:44 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-13 20:21:48.976941
Title: StableMotion: Repurposing Diffusion-Based Image Priors for Motion Estimation
Title（参考訳）: StableMotion: モーション推定のための拡散に基づく画像優先の再利用
Authors: Ziyi Wang, Haipeng Li, Lin Sui, Tianhao Zhou, Hai Jiang, Lang Nie, Shuaicheng Liu,
Abstract要約: 本稿では,画像修正作業における動作推定を行う新しいフレームワークであるStableMotionを紹介する。 StableMotionは2つの画像修正タスクで検証され、どちらも最先端のパフォーマンスを提供する。 SSDがサポートしているStableMotionは、これまでの拡散モデルベースの方法に比べて200倍のスピードアップを提供する。
参考スコア（独自算出の注目度）: 35.78687900267786
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present StableMotion, a novel framework leverages knowledge (geometry and content priors) from pretrained large-scale image diffusion models to perform motion estimation, solving single-image-based image rectification tasks such as Stitched Image Rectangling (SIR) and Rolling Shutter Correction (RSC). Specifically, StableMotion framework takes text-to-image Stable Diffusion (SD) models as backbone and repurposes it into an image-to-motion estimator. To mitigate inconsistent output produced by diffusion models, we propose Adaptive Ensemble Strategy (AES) that consolidates multiple outputs into a cohesive, high-fidelity result. Additionally, we present the concept of Sampling Steps Disaster (SSD), the counterintuitive scenario where increasing the number of sampling steps can lead to poorer outcomes, which enables our framework to achieve one-step inference. StableMotion is verified on two image rectification tasks and delivers state-of-the-art performance in both, as well as showing strong generalizability. Supported by SSD, StableMotion offers a speedup of 200 times compared to previous diffusion model-based methods.
Abstract（参考訳）: 本稿では、事前訓練された大規模画像拡散モデルから知識(幾何学とコンテンツ先行)を活用して動き推定を行い、Stitched Image Rectangling (SIR) やRolling Shutter Correction (RSC) のような単一画像に基づく画像修正タスクを解決する新しいフレームワークであるStableMotionを提案する。具体的には、StableMotionフレームワークはテキスト・ツー・イメージの安定拡散(SD)モデルをバックボーンとして、イメージ・トゥ・モーション推定器に再利用する。拡散モデルにより生成される一貫性のない出力を軽減するために,複数の出力を結合性の高い高忠実度な結果に集約する適応型アンサンブル戦略(AES)を提案する。さらに,サンプリングステップの数を増やすことで,結果の貧弱化につながるような直感的シナリオであるサンプリングステップ災害(Smpling Steps Disaster, SSD)のコンセプトを提案する。 StableMotionは2つの画像修正タスクで検証され、どちらも最先端のパフォーマンスを提供し、高い一般化性を示している。 SSDがサポートしているStableMotionは、これまでの拡散モデルベースの方法に比べて200倍のスピードアップを提供する。

関連論文リスト

Single-Step Latent Consistency Model for Remote Sensing Image Super-Resolution [7.920423405957888]
RSISRタスクの効率性と視覚的品質を向上させるために,新しい単一ステップ拡散手法を提案する。提案したLCMSRは,従来の拡散モデルの反復的なステップを50-1000以上から1ステップに短縮する。実験の結果, LCMSRは効率と性能のバランスを効果的に保ち, 非拡散モデルに匹敵する推論時間を達成することがわかった。
論文参考訳（メタデータ） (2025-03-25T09:56:21Z)
PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [95.98801201266099]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文参考訳（メタデータ） (2024-11-26T04:49:42Z)
Timestep-Aware Diffusion Model for Extreme Image Rescaling [47.89362819768323]
本稿では,時間認識拡散モデル(TADM)と呼ばれる,画像再スケーリングのための新しいフレームワークを提案する。 TADMは、事前訓練されたオートエンコーダの潜在空間で再スケーリング操作を行う。これは、事前訓練されたテキスト・ツー・イメージ拡散モデルによって学習された強力な自然画像の先行を効果的に活用する。
論文参考訳（メタデータ） (2024-08-17T09:51:42Z)
Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する既存の二項化法では性能が著しく低下する。画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文参考訳（メタデータ） (2024-06-09T10:30:25Z)
SinSR: Diffusion-Based Image Super-Resolution in a Single Step [119.18813219518042]
拡散モデルに基づく超解像(SR)法は有望な結果を示す。しかし、それらの実践的応用は、必要な推論ステップのかなりの数によって妨げられている。本稿では,SinSRという単一ステップのSR生成を実現するための,シンプルで効果的な手法を提案する。
論文参考訳（メタデータ） (2023-11-23T16:21:29Z)
Post-training Quantization for Text-to-Image Diffusion Models with Progressive Calibration and Activation Relaxing [49.800746112114375]
本稿では,テキスト・画像拡散モデルのための学習後量子化手法(プログレッシブ・アンド・リラクシング)を提案する。我々は,安定拡散XLの量子化を初めて達成し,その性能を維持した。
論文参考訳（メタデータ） (2023-11-10T09:10:09Z)
Latent Consistency Models: Synthesizing High-Resolution Images with Few-Step Inference [60.32804641276217]
本稿では,LCM(Latent Consistency Models)を提案する。高品質の768 x 768 24-step LCMは、トレーニングに32A100 GPU時間しかかからない。また,画像データセットの微調整に適した新しいLCM法であるLCF(Latent Consistency Fine-tuning)についても紹介する。
論文参考訳（メタデータ） (2023-10-06T17:11:58Z)
ResShift: Efficient Diffusion Model for Image Super-resolution by Residual Shifting [70.83632337581034]
拡散に基づく画像超解像法(SR)は主に低推論速度によって制限される。本稿では,SRの拡散段数を大幅に削減する新しい,効率的な拡散モデルを提案する。本手法は,残差をシフトすることで高分解能画像と低分解能画像の間を移動させるマルコフ連鎖を構成する。
論文参考訳（メタデータ） (2023-07-23T15:10:02Z)
A Unified Conditional Framework for Diffusion-based Image Restoration [39.418415473235235]
画像復元のための拡散モデルに基づく統一条件付きフレームワークを提案する。我々は、軽量なUNetを利用して初期ガイダンスと拡散モデルを予測し、指導の残余を学習する。そこで本研究では,高解像度画像を扱うために,単純なステップ間パッチ分割方式を提案する。
論文参考訳（メタデータ） (2023-05-31T17:22:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。