論文の概要: OARS: Process-Aware Online Alignment for Generative Real-World Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2603.12811v1
- Date: Fri, 13 Mar 2026 09:12:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.011105
- Title: OARS: Process-Aware Online Alignment for Generative Real-World Image Super-Resolution
- Title(参考訳): OARS: リアルタイム画像生成のためのプロセス対応オンラインアライメント
- Authors: Shijie Zhao, Xuanyu Zhang, Bin Chen, Weiqi Li, Qunliang Xing, Kexin Zhang, Yan Wang, Junlin Li, Li Zhang, Jian Zhang, Tianfan Xue,
- Abstract要約: OARS は LR から SR への移行を評価する,プロセス対応のオンラインアライメントフレームワークである。
我々は,Real-ISRベンチマークにおいて,忠実さを維持しながら一貫した知覚的改善を示す。
- 参考スコア(独自算出の注目度): 47.35253230699505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning generative real-world image super-resolution models with human visual preference is challenging due to the perception--fidelity trade-off and diverse, unknown degradations. Prior approaches rely on offline preference optimization and static metric aggregation, which are often non-interpretable and prone to pseudo-diversity under strong conditioning. We propose OARS, a process-aware online alignment framework built on COMPASS, a MLLM-based reward that evaluates the LR to SR transition by jointly modeling fidelity preservation and perceptual gain with an input-quality-adaptive trade-off. To train COMPASS, we curate COMPASS-20K spanning synthetic and real degradations, and introduce a three-stage perceptual annotation pipeline that yields calibrated, fine-grained training labels. Guided by COMPASS, OARS performs progressive online alignment from cold-start flow matching to full-reference and finally reference-free RL via shallow LoRA optimization for on-policy exploration. Extensive experiments and user studies demonstrate consistent perceptual improvements while maintaining fidelity, achieving state-of-the-art performance on Real-ISR benchmarks.
- Abstract(参考訳): 人間の視覚的嗜好を伴う生成現実画像の超解像モデルを調整することは、知覚-忠実なトレードオフと多様で未知の劣化のために困難である。
従来のアプローチでは、オフラインの優先度最適化と静的なメートル法アグリゲーションに依存しており、しばしば解釈不能であり、強い条件下では擬似多様性が生じる。
MLLMベースの報酬であるCompASS上に構築されたプロセス対応オンラインアライメントフレームワークであるOARSを提案する。
CompASSをトレーニングするために、合成および実劣化にまたがるCompASS-20Kをキュレートし、キャリブレーションされたきめ細かなトレーニングラベルを出力する3段階の知覚的アノテーションパイプラインを導入する。
COMPASSによってガイドされ、OARSは、コールドスタートフローマッチングからフル参照、そして最後に、政治上の探索のために浅いLoRA最適化を通して、段階的にオンラインアライメントを行う。
広汎な実験とユーザスタディは、忠実さを維持しながら一貫した知覚的改善を示し、Real-ISRベンチマークで最先端のパフォーマンスを達成する。
関連論文リスト
- LucidNFT: LR-Anchored Multi-Reward Preference Optimization for Generative Real-World Super-Resolution [21.290660354883595]
優先度に基づく強化学習(RL)は、各LR入力が比較対象のロールアウトグループを生成するため、自然な適合である。
我々は、フローマッチングリアルタイムISRのためのマルチリワードRLフレームワークLucidNFTを提案する。
LucidNFTはフローベースのReal-ISRベースラインを一貫して改善している。
論文 参考訳(メタデータ) (2026-03-06T06:30:34Z) - Bidirectional Reward-Guided Diffusion for Real-World Image Super-Resolution [79.35296000454694]
拡散に基づく超解像は、豊富な詳細を合成することができるが、合成ペアデータで訓練されたモデルは、現実世界のLR画像では失敗することが多い。
我々は,超解像を軌道レベルの優先最適化として定式化する報奨誘導拡散フレームワークであるBird-SRを提案する。
実世界のSRベンチマークの実験では、Bird-SRは知覚品質において最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-05T19:21:45Z) - Implicit Neural Representation-Based Continuous Single Image Super Resolution: An Empirical Study [50.15623093332659]
入射神経表現(INR)は任意のスケール画像超解像(ASSR)の標準的アプローチとなっている
既存の手法を多様な設定で比較し、複数の画像品質指標に対して集計結果を示す。
トレーニング中, エッジ, テクスチャ, 細部を保存しながら, 強度変化をペナライズする新たな損失関数について検討した。
論文 参考訳(メタデータ) (2026-01-25T07:09:20Z) - Adaptive Replay Buffer for Offline-to-Online Reinforcement Learning [29.513882808306406]
私たちはAdaptive Replay Buffer (ARB)を紹介します。これは'オン・ポリティネス'と呼ばれる軽量なメトリックに基づいてデータサンプリングを優先順位付けする新しいアプローチです。
ARBは学習不要で実装が簡単で、既存のオフラインからオンラインへの強化学習アルゴリズムにシームレスに統合できるように設計されている。
D4RLベンチマーク実験により, ARBは早期性能劣化を抑えつつ, 各種O2O RLアルゴリズムの最終的な性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-12-11T10:30:04Z) - Dual-domain Adaptation Networks for Realistic Image Super-resolution [81.34345637776408]
現実画像超解像(SR)は、現実世界の低解像度(LR)画像を高解像度(HR)画像に変換することに焦点を当てている。
現在の手法は、限られた現実世界のLR-HRデータと競合し、基本的な画像特徴の学習に影響を及ぼす。
我々は、シミュレーションされた画像SRモデルを実世界のデータセットに効率よく適応できる新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-11-21T12:57:23Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Realism Control One-step Diffusion for Real-World Image Super-Resolution [21.13930153613271]
本稿では,リアルタイムISRのためのリアルタイム制御一段階拡散(RCOD)フレームワークを提案する。
RCODはノイズ予測フェーズにおいて、忠実現実主義のトレードオフを明示的に制御する。
本手法は,計算効率を維持しつつ,優れた忠実度と知覚品質を実現する。
論文 参考訳(メタデータ) (2025-09-12T10:32:04Z) - Exploration from a Primal-Dual Lens: Value-Incentivized Actor-Critic Methods for Sample-Efficient Online RL [40.05960121330012]
複雑な関数近似を持つオンライン強化学習(RL)は、現代の人工知能の実践において重要な役割を果たす。
探検と搾取の基本的なトレードオフのバランスは、依然として長年にわたる課題である。
本稿では,主対最適化のレンズによる楽観主義の原理を解釈する。
論文 参考訳(メタデータ) (2025-06-27T17:18:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。