論文の概要: Joint Geometric and Trajectory Consistency Learning for One-Step Real-World Super-Resolution
- arxiv url: http://arxiv.org/abs/2602.24240v1
- Date: Fri, 27 Feb 2026 18:13:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.554887
- Title: Joint Geometric and Trajectory Consistency Learning for One-Step Real-World Super-Resolution
- Title(参考訳): 1ステップ実世界の超解法における幾何学的・軌道的整合性学習
- Authors: Chengyan Deng, Zhangquan Chen, Li Yu, Kai Zhang, Xue Zhou, Wang Zhang,
- Abstract要約: 拡散に基づくReal-World Image Super-Resolution (Real-ISR)は、印象的な知覚品質を実現するが、反復サンプリングによる高い計算コストに悩まされる。
本稿では,GTASR(Geometric Trajectory Alignment Super-Resolution)を提案する。
- 参考スコア(独自算出の注目度): 14.52346301984322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based Real-World Image Super-Resolution (Real-ISR) achieves impressive perceptual quality but suffers from high computational costs due to iterative sampling. While recent distillation approaches leveraging large-scale Text-to-Image (T2I) priors have enabled one-step generation, they are typically hindered by prohibitive parameter counts and the inherent capability bounds imposed by teacher models. As a lightweight alternative, Consistency Models offer efficient inference but struggle with two critical limitations: the accumulation of consistency drift inherent to transitive training, and a phenomenon we term "Geometric Decoupling" - where the generative trajectory achieves pixel-wise alignment yet fails to preserve structural coherence. To address these challenges, we propose GTASR (Geometric Trajectory Alignment Super-Resolution), a simple yet effective consistency training paradigm for Real-ISR. Specifically, we introduce a Trajectory Alignment (TA) strategy to rectify the tangent vector field via full-path projection, and a Dual-Reference Structural Rectification (DRSR) mechanism to enforce strict structural constraints. Extensive experiments verify that GTASR delivers superior performance over representative baselines while maintaining minimal latency. The code and model will be released at https://github.com/Blazedengcy/GTASR.
- Abstract(参考訳): 拡散に基づくReal-World Image Super-Resolution (Real-ISR)は、印象的な知覚品質を実現するが、反復サンプリングによる高い計算コストに悩まされる。
大規模テキスト・ツー・イメージ(T2I)の先行技術を利用した最近の蒸留手法では一段階生成が可能になっているが、一般的には禁止パラメータ数と教師モデルによって課される固有の能力限界によって妨げられている。
軽量な代替手段として、一貫性モデル(Consistency Models)は効率的な推論を提供するが、過渡的なトレーニングに固有の一貫性の蓄積と、「幾何学的デカップリング(Geometric Decoupling)」という現象という2つの重要な限界に直面する。
これらの課題に対処するために,我々は,Real-ISRのためのシンプルで効果的な一貫性トレーニングパラダイムであるGTASR(Geometric Trajectory Alignment Super-Resolution)を提案する。
具体的には、全経路投影により接ベクトル場を整形するトラジェクトリアライメント(TA)戦略と、厳密な構造制約を強制するDual-Reference Structure Rectification(DRSR)機構を導入する。
大規模な実験では、GTASRは最小レイテンシを維持しながら、代表ベースラインよりも優れたパフォーマンスを提供する。
コードとモデルはhttps://github.com/Blazedengcy/GTASRでリリースされる。
関連論文リスト
- On the Rate of Convergence of GD in Non-linear Neural Networks: An Adversarial Robustness Perspective [2.268525139011456]
グラディエント・Descent (GD) の収束ダイナミクスを最小二項分類設定で検討する。
我々は、GDが最適ロバスト性マージンにうまく収束する一方で、この収束は禁断的に遅い速度で起こることを証明した。
我々の理論的保証は、モデルの異なるアクティベーションパターン間でのGD軌道の厳密な解析を通じて導出される。
論文 参考訳(メタデータ) (2026-03-02T17:13:33Z) - TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - GeoRA: Geometry-Aware Low-Rank Adaptation for RLVR [10.820638016337869]
RL更新部分空間の異方性と圧縮性を利用したGeoRAを提案する。
GeoRAは、幾何学的ミスアライメントによる最適化ボトルネックを緩和する。
主要な数学ベンチマークで確立された低ランクのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2026-01-14T10:41:34Z) - Parallel Diffusion Solver via Residual Dirichlet Policy Optimization [88.7827307535107]
拡散モデル(DM)は、最先端の生成性能を達成したが、シーケンシャルなデノナイジング特性のため、高いサンプリング遅延に悩まされている。
既存のソルバベースの加速度法では、低次元の予算で画像品質が著しく低下することが多い。
本研究では,各ステップに複数の勾配並列評価を組み込んだ新しいODE解法であるEnsemble Parallel Directionsolvr(EPD-EPr)を提案する。
論文 参考訳(メタデータ) (2025-12-28T05:48:55Z) - SCEESR: Semantic-Control Edge Enhancement for Diffusion-Based Super-Resolution [0.8122270502556375]
現実世界の超解像は複雑な劣化と固有の再構成の曖昧さに対処しなければならない。
一段階拡散モデルは速度を提供するが、蒸留品による構造的不正確さをしばしば生み出す。
セマンティックエッジガイダンスのための制御ネット機構を用いて,一段階拡散モデルを強化する新しいSRフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-22T06:06:01Z) - LinearSR: Unlocking Linear Attention for Stable and Efficient Image Super-Resolution [24.44080642253128]
画像超解法(SR)の生成モデルはますます強力になるが、自己アテンションの二次複雑性(O(N2))に依存しているため、大きな計算ボトルネックが生じる。
線形注意(Linear Attention)はO(N)ソリューションを提供するが、フォトリアリスティックSRに対するその約束は、ほとんど未解決のままである。
本稿では、これらの重要なハードルを体系的に克服する全体論的なフレームワークであるLinearSRを紹介する。
論文 参考訳(メタデータ) (2025-10-09T19:41:51Z) - Dynamic Generation of Multi-LLM Agents Communication Topologies with Graph Diffusion Models [99.85131798240808]
我々はtextitGuided Topology Diffusion (GTD) と呼ばれる新しい生成フレームワークを導入する。
条件付き離散グラフ拡散モデルにインスパイアされたGTD式は、反復的な構成過程としてトポロジー合成を行う。
各ステップで生成は、多目的報酬を予測する軽量プロキシモデルによって制御される。
実験により、GTDは高いタスク適応性、スパース、効率的な通信トポロジを生成できることが示されている。
論文 参考訳(メタデータ) (2025-10-09T05:28:28Z) - ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。