論文の概要: 4KAgent: Agentic Any Image to 4K Super-Resolution
- arxiv url: http://arxiv.org/abs/2507.07105v1
- Date: Wed, 09 Jul 2025 17:59:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.722382
- Title: 4KAgent: Agentic Any Image to 4K Super-Resolution
- Title(参考訳): 4Kのスーパーリゾリューションに、どんなイメージでも役立てる4KAgent
- Authors: Yushen Zuo, Qi Zheng, Mingyang Wu, Xinrui Jiang, Renjie Li, Jian Wang, Yide Zhang, Gengchen Mai, Lihong V. Wang, James Zou, Xiaoyu Wang, Ming-Hsuan Yang, Zhengzhong Tu,
- Abstract要約: 我々は、任意の画像を4K解像度にスケールアップするために設計された超高解像度のジェネラリストシステムである4KAgentを提示する。
4KAgentは,(1)ベズークのユースケースに基づいて4KAgentパイプラインをカスタマイズするモジュールであるプロファイリング,(2)画像品質評価の専門家とともに視覚言語モデルを活用して入力画像を分析し,調整された復元計画を作成するパーセプションエージェント,(3)各ステップの最適出力を選択するための品質駆動混合ポリシーに従って計画を実行するリカバリエージェント,の3つのコアコンポーネントから構成される。
われわれは4kagentを厳格に評価する
- 参考スコア(独自算出の注目度): 62.99433518118836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present 4KAgent, a unified agentic super-resolution generalist system designed to universally upscale any image to 4K resolution (and even higher, if applied iteratively). Our system can transform images from extremely low resolutions with severe degradations, for example, highly distorted inputs at 256x256, into crystal-clear, photorealistic 4K outputs. 4KAgent comprises three core components: (1) Profiling, a module that customizes the 4KAgent pipeline based on bespoke use cases; (2) A Perception Agent, which leverages vision-language models alongside image quality assessment experts to analyze the input image and make a tailored restoration plan; and (3) A Restoration Agent, which executes the plan, following a recursive execution-reflection paradigm, guided by a quality-driven mixture-of-expert policy to select the optimal output for each step. Additionally, 4KAgent embeds a specialized face restoration pipeline, significantly enhancing facial details in portrait and selfie photos. We rigorously evaluate our 4KAgent across 11 distinct task categories encompassing a total of 26 diverse benchmarks, setting new state-of-the-art on a broad spectrum of imaging domains. Our evaluations cover natural images, portrait photos, AI-generated content, satellite imagery, fluorescence microscopy, and medical imaging like fundoscopy, ultrasound, and X-ray, demonstrating superior performance in terms of both perceptual (e.g., NIQE, MUSIQ) and fidelity (e.g., PSNR) metrics. By establishing a novel agentic paradigm for low-level vision tasks, we aim to catalyze broader interest and innovation within vision-centric autonomous agents across diverse research communities. We will release all the code, models, and results at: https://4kagent.github.io.
- Abstract(参考訳): 我々は、任意の画像を4K解像度に普遍的にアップスケールするために設計された統合エージェント超解像ジェネリストシステムである4KAgentを提示する。
例えば、256x256の高歪みの入力を結晶クラーでフォトリアリスティックな4K出力に変換する。
4KAgentは,(1)ベズークのユースケースに基づいて4KAgentパイプラインをカスタマイズするモジュールであるプロファイリング,(2)画像品質評価の専門家とともに視覚言語モデルを活用するパーセプションエージェント,(3)再帰的実行・リフレクションパラダイムに従って計画を実行し,各ステップの最適出力を選択するための品質駆動ミックス・オブ・エキスパートポリシーでガイドされるリカバリエージェントの3つのコアコンポーネントから構成される。
さらに、4KAgentには特殊な顔修復パイプラインが組み込まれており、ポートレートやセルフィーの写真の顔の詳細が大幅に向上している。
我々は、26の多様なベンチマークを含む11のタスクカテゴリにまたがって4KAgentを厳格に評価し、幅広い画像領域に新しい最先端技術を設定した。
本評価では, 自然画像, 肖像画, AI 生成コンテンツ, 衛星画像, 蛍光顕微鏡, 超音波, X線などの医用画像について, 知覚的(例えば, NIQE, MUSIQ) と忠実度(例えば, PSNR) の両方で優れた性能を示す。
低レベルのビジョンタスクのための新しいエージェントパラダイムを確立することで、さまざまな研究コミュニティにおけるビジョン中心の自律エージェントにおける幅広い関心とイノベーションを触媒することを目指している。
すべてのコード、モデル、結果をhttps://4kagent.github.ioでリリースします。
関連論文リスト
- SurgiSR4K: A High-Resolution Endoscopic Video Dataset for Robotic-Assisted Minimally Invasive Procedures [11.016055846317293]
SurgiSR4Kは、ネイティブ4K解像度で撮影された、初めて公開された外科画像とビデオデータセットである。
このデータセットは、高解像度データから恩恵を受ける可能性のある幅広いコンピュータビジョンタスクの可能性を開く。
論文 参考訳(メタデータ) (2025-06-30T19:23:57Z) - Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields [56.184278668305076]
2次元視覚基礎モデルから4次元領域へ機能を拡張するための普遍的なフレームワークであるFeature4Xを紹介する。
このフレームワークは、まず、ビデオ基礎モデルの機能をSplattingを使って明示的な4D機能フィールドに蒸留し、持ち上げる。
実験では、新しいビューセグメント、幾何学的および外観的シーンの編集、全時間ステップにわたる自由形式VQAについて紹介した。
論文 参考訳(メタデータ) (2025-03-26T17:56:16Z) - CO-SPY: Combining Semantic and Pixel Features to Detect Synthetic Images by AI [58.35348718345307]
実際の画像とAI生成画像を区別する現在の取り組みには、一般化が欠如している可能性がある。
既存のセマンティック機能を強化した新しいフレームワークCo-Spyを提案する。
また、5つの実画像データセットと22の最先端生成モデルからなる包括的データセットであるCo-Spy-Benchを作成します。
論文 参考訳(メタデータ) (2025-03-24T01:59:29Z) - HoloHisto: End-to-end Gigapixel WSI Segmentation with 4K Resolution Sequential Tokenization [21.1691961979094]
デジタル病理学では、ディープラーニングに基づくイメージセグメンテーションの伝統的な方法は通常、2段階のプロセスを含む。
本稿では,ギガピクセルWSI上でのエンドツーエンドのセグメンテーションを実現するために,ホロヒスト法(HoloHisto)セグメンテーション法を提案する。
HoloHistoプラットフォームでは、超高解像度の4Kサンプルをランダムに公開しています。
論文 参考訳(メタデータ) (2024-07-03T17:49:31Z) - ClusterFormer: Clustering As A Universal Visual Learner [80.79669078819562]
CLUSTERFORMERは、トランスフォーマーを用いたCLUSTERingパラダイムに基づくユニバーサルビジョンモデルである。
不均一な視覚タスクに様々なレベルのクラスタリングの粒度で対処することができる。
その有効性のために、コンピュータビジョンにおける普遍モデルにおけるパラダイムシフトを触媒できることを期待します。
論文 参考訳(メタデータ) (2023-09-22T22:12:30Z) - 4K-HAZE: A Dehazing Benchmark with 4K Resolution Hazy and Haze-Free
Images [12.402054374952485]
まず、シーンの深さを推定し、光線とオブジェクトの反射率をシミュレートし、GANを用いて合成画像を実際の領域に移行する。
これらの合成画像を4K-HAZEデータセットと呼ばれるベンチマークにラップする。
このアプローチの最も魅力的な側面は、24G RAMをリアルタイムで(33fps)1つのGPU上で4Kイメージを実行する機能です。
論文 参考訳(メタデータ) (2023-03-28T09:39:29Z) - Towards Efficient and Scale-Robust Ultra-High-Definition Image
Demoireing [71.62289021118983]
本研究では、4Kモアレ画像に対処する効率的なベースラインモデルESDNetを提案する。
我々の手法は、より軽量でありながら、最先端の手法よりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2022-07-20T14:20:52Z) - Deep Neural Network for Blind Visual Quality Assessment of 4K Content [37.70643043547502]
既存のブラインド画像品質評価法(BIQA)は、オリジナルおよびアップスケールの4Kコンテンツには適していない。
本研究では、4Kコンテンツに対する深層学習に基づくBIQAモデルを提案する。
提案手法はマルチタスク学習方式を用いて学習し,分類タスクと回帰タスクの損失のバランスをとる不確実性原理を導入する。
論文 参考訳(メタデータ) (2022-06-09T09:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。