論文の概要: SimpleCall: A Lightweight Image Restoration Agent in Label-Free Environments with MLLM Perceptual Feedback
- arxiv url: http://arxiv.org/abs/2512.18599v1
- Date: Sun, 21 Dec 2025 05:12:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.411388
- Title: SimpleCall: A Lightweight Image Restoration Agent in Label-Free Environments with MLLM Perceptual Feedback
- Title(参考訳): SimpleCall:MLLM知覚フィードバックを用いたラベルなし環境における軽量画像復元エージェント
- Authors: Jianglin Lu, Yuanwei Wu, Ziyi Zhao, Hongcheng Wang, Felix Jimenez, Abrar Majeedi, Yun Fu,
- Abstract要約: 複雑な画像復元は、複数の劣化によって影響を受ける入力から高品質な画像を復元することを目的としている。
視覚言語モデルと大規模言語モデルを利用した最近の修復エージェントは、有望な修復機能を提供するが、ボトルネックに悩まされている。
本稿では,ツール呼び出しシーケンスを決定するための軽量エージェントを学習するポリシー最適化に基づく復元フレームワークを提案する。
- 参考スコア(独自算出の注目度): 27.198190496709433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Complex image restoration aims to recover high-quality images from inputs affected by multiple degradations such as blur, noise, rain, and compression artifacts. Recent restoration agents, powered by vision-language models and large language models, offer promising restoration capabilities but suffer from significant efficiency bottlenecks due to reflection, rollback, and iterative tool searching. Moreover, their performance heavily depends on degradation recognition models that require extensive annotations for training, limiting their applicability in label-free environments. To address these limitations, we propose a policy optimization-based restoration framework that learns an lightweight agent to determine tool-calling sequences. The agent operates in a sequential decision process, selecting the most appropriate restoration operation at each step to maximize final image quality. To enable training within label-free environments, we introduce a novel reward mechanism driven by multimodal large language models, which act as human-aligned evaluator and provide perceptual feedback for policy improvement. Once trained, our agent executes a deterministic restoration plans without redundant tool invocations, significantly accelerating inference while maintaining high restoration quality. Extensive experiments show that despite using no supervision, our method matches SOTA performance on full-reference metrics and surpasses existing approaches on no-reference metrics across diverse degradation scenarios.
- Abstract(参考訳): 複雑な画像復元は、ブラー、ノイズ、雨、圧縮アーティファクトといった複数の劣化によって影響を受ける入力から高品質なイメージを復元することを目的としている。
視覚言語モデルと大規模言語モデルを利用した最近の修復エージェントは、有望な復元機能を提供するが、リフレクション、ロールバック、反復ツール探索による大幅な効率のボトルネックに悩まされている。
さらに、それらの性能は、ラベルなし環境における適用性を制限し、トレーニングのための広範囲なアノテーションを必要とする劣化認識モデルに大きく依存する。
これらの制約に対処するために,ツール呼び出しシーケンスを決定するための軽量エージェントを学習するポリシー最適化ベースの復元フレームワークを提案する。
エージェントはシーケンシャルな決定プロセスで動作し、各ステップで最も適切な復元操作を選択して最終画像品質を最大化する。
ラベルのない環境下でのトレーニングを実現するため,マルチモーダルな大規模言語モデルによって駆動される新たな報酬メカニズムを導入する。
訓練後, 冗長なツール呼び出しを伴わずに決定論的復元計画を実行し, 高い修復品質を維持しつつ, 推論を著しく加速する。
大規模な実験では, 監督を使わずとも, 提案手法は全参照基準のSOTA性能と一致し, 多様な劣化シナリオにおける非参照基準の既存手法を超越している。
関連論文リスト
- Beyond Degradation Redundancy: Contrastive Prompt Learning for All-in-One Image Restoration [109.38288333994407]
コントラスト・プロンプト・ラーニング(Contrastive Prompt Learning, CPL)は、プロンプト・タスクのアライメントを根本的に強化する新しいフレームワークである。
本フレームワークは,パラメータ効率を保ちながら,新たな最先端性能を確立し,統一画像復元のための原理的ソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-14T08:24:57Z) - UniRestorer: Universal Image Restoration via Adaptively Estimating Image Degradation at Proper Granularity [79.90839080916913]
We present our UniRestorer with improve restoration performance。
具体的には、劣化空間上で階層的クラスタリングを行い、マルチグラニュラリティ・ミックス・オブ・エキスパート(MoE)復元モデルを訓練する。
UniRestorerは、既存の劣化診断法と -aware 法とは対照的に、劣化推定を利用して劣化特定回復の恩恵を受けることができる。
論文 参考訳(メタデータ) (2024-12-28T14:09:08Z) - Perceive-IR: Learning to Perceive Degradation Better for All-in-One Image Restoration [33.163161549726446]
Perceive-IRは、きめ細かい品質管理のための新しいバックボーン非依存のオールインワン画像復元フレームワークである。
モジュール構造により、コアコンポーネントは特定のバックボーンとは独立して機能し、高度な復元モデルへのシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2024-08-28T17:58:54Z) - RestoreAgent: Autonomous Image Restoration Agent via Multimodal Large Language Models [45.88103575837924]
マルチモーダルな大言語モデルを活用したインテリジェントな画像復元システムであるRestoreAgentを紹介する。
RestoreAgentは、入力画像の劣化の種類と程度を自律的に評価し、(1)適切な復元タスクを決定すること、(2)タスクシーケンスを最適化すること、(3)最も適切なモデルを選択すること、(4)復元を実行することを通じて復元を行う。
実験結果は,RestoreAgentの複雑な劣化処理における優れた性能を示し,人間の専門家を上回った。
論文 参考訳(メタデータ) (2024-07-25T13:29:37Z) - Scaling Up to Excellence: Practicing Model Scaling for Photo-Realistic Image Restoration In the Wild [57.06779516541574]
SUPIR (Scaling-UP Image Restoration) は、生成前処理とモデルスケールアップのパワーを利用する、画期的な画像復元手法である。
モデルトレーニングのための2000万の高解像度高画質画像からなるデータセットを収集し、それぞれに記述的テキストアノテーションを付加する。
論文 参考訳(メタデータ) (2024-01-24T17:58:07Z) - Prompt-based Ingredient-Oriented All-in-One Image Restoration [0.0]
複数の画像劣化課題に対処する新しいデータ成分指向手法を提案する。
具体的には、エンコーダを用いて特徴をキャプチャし、デコーダを誘導するための劣化情報を含むプロンプトを導入する。
我々の手法は最先端技術と競争的に機能する。
論文 参考訳(メタデータ) (2023-09-06T15:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。