論文の概要: PaAgent: Portrait-Aware Image Restoration Agent via Subjective-Objective Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.17055v1
- Date: Tue, 17 Mar 2026 18:41:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.352533
- Title: PaAgent: Portrait-Aware Image Restoration Agent via Subjective-Objective Reinforcement Learning
- Title(参考訳): PaAgent: 主観的目的強化学習による画像復元エージェント
- Authors: Yijian Wang, Qingsen Yan, Jiantao Zhou, Duwei Dai, Wei Dong,
- Abstract要約: 画像復元(IR)エージェントは、多モーダルな言語モデルを利用して劣化を認識し、復元ツールを起動する。
本稿では、IRツール用の自己進化型ポートレートバンクと、RAG(Retrieval-Augmented Generation)を組み込んで、入力に適したIRツールを選択するポートレート対応IRエージェントPaAgentを提案する。
複雑な場面における劣化を知覚するPaAgentの能力を高めるために,主観的客観的強化学習戦略を提案する。
- 参考スコア(独自算出の注目度): 26.45794333055125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image Restoration (IR) agents, leveraging multimodal large language models to perceive degradation and invoke restoration tools, have shown promise in automating IR tasks. However, existing IR agents typically lack an insight summarization mechanism for past interactions, which results in an exhaustive search for the optimal IR tool. To address this limitation, we propose a portrait-aware IR agent, dubbed PaAgent, which incorporates a self-evolving portrait bank for IR tools and Retrieval-Augmented Generation (RAG) to select a suitable IR tool for input. Specifically, to construct and evolve the portrait bank, the PaAgent continuously enriches it by summarizing the characteristics of various IR tools with restored images, selected IR tools, and degraded images. In addition, the RAG is employed to select the optimal IR tool for the input image by retrieving relevant insights from the portrait bank. Furthermore, to enhance PaAgent's ability to perceive degradation in complex scenes, we propose a subjective-objective reinforcement learning strategy that considers both image quality scores and semantic insights in reward generation, which accurately provides the degradation information even under partial and non-uniform degradation. Extensive experiments across 8 IR benchmarks, covering six single-degradation and eight mixed-degradation scenarios, validate PaAgent's superiority in addressing complex IR tasks. Our project page is \href{https://wyjgr.github.io/PaAgent.html}{PaAgent}.
- Abstract(参考訳): 画像復元(IR)エージェントは、多モーダルな言語モデルを利用して劣化を認識し、復元ツールを起動する。
しかし、既存のIRエージェントは、通常、過去の相互作用に対する洞察の要約機構を欠いているため、最適なIRツールを徹底的に探索する結果となる。
この制限に対処するために、我々はPaAgentと呼ばれるポートレート対応IRエージェントを提案し、このエージェントは、IRツール用の自己進化型ポートレートバンクと、RAG(Retrieval-Augmented Generation)を組み込んで、入力に適したIRツールを選択する。
特に、ポートレートバンクの構築と発展のために、PaAgentは、様々なIRツールの特徴を復元された画像、選択されたIRツール、劣化した画像で要約することにより、それを継続的に強化する。
さらに、RAGを用いて、ポートレートバンクから関連する洞察を取得することにより、入力画像のための最適なIRツールを選択する。
さらに、複雑な場面における劣化を知覚するPaAgentの能力を高めるために、画像品質スコアと報酬生成における意味的洞察の両方を考慮した主観的目的強化学習戦略を提案し、部分的・非一様劣化においても精度良く劣化情報を提供する。
8つのIRベンチマークにわたる大規模な実験は、6つの単一劣化と8つの混合劣化シナリオをカバーし、複雑なIRタスクに対処するPaAgentの優位性を検証する。
プロジェクトページは \href{https://wyjgr.github.io/PaAgent.html}{PaAgent} です。
関連論文リスト
- A Multimodal RAG Framework for Housing Damage Assessment: Collaborative Optimization of Image Encoding and Policy Vector Retrieval [0.0]
自然災害後、住宅被害の正確な評価は、保険請求の応答と資源の計画にとって重要である。
本研究では,MM-RAG(Multimodal retrieve-augmented Generation)フレームワークを提案する。
このフレームワークはエンドツーエンドのトレーニングを受け、比較損失、検索損失、生成損失を組み合わせてマルチタスク最適化の目標を形成する。
論文 参考訳(メタデータ) (2025-09-10T01:58:07Z) - GenIR: Generative Visual Feedback for Mental Image Retrieval [8.753622774569774]
心的イメージ検索(MIR)の課題について検討する。
MIRは、ユーザーがイメージ検索エンジンとのマルチラウンドインタラクションを通じて、精神的に想定されたイメージの検索を洗練する現実的で過度に探索された環境をターゲットにしている。
本稿では,拡散に基づく画像生成を活用し,各ラウンドにおけるAIシステムの理解を明確化するための生成多ラウンド検索パラダイムであるGenIRを提案する。
論文 参考訳(メタデータ) (2025-06-06T16:28:03Z) - UniRestore: Unified Perceptual and Task-Oriented Image Restoration Model Using Diffusion Prior [56.35236964617809]
画像復元は、悪天候、ぼやけ、騒音などの様々な要因によって劣化した入力からコンテンツを回復することを目的としている。
本稿では,PIRとTIRのギャップを埋める統一画像復元モデルUniRestoreを紹介する。
本稿では,分解エンコーダの特徴を再構築するための補足的特徴回復モジュール (CFRM) と,デコーダの適応的特徴融合を容易にするタスク特徴適応モジュール (TFA) を提案する。
論文 参考訳(メタデータ) (2025-01-22T08:06:48Z) - Hierarchical Information Flow for Generalized Efficient Image Restoration [108.83750852785582]
画像復元のための階層型情報フロー機構であるHi-IRを提案する。
Hi-IRは、劣化した画像を表す階層的な情報ツリーを3段階にわたって構築する。
7つの共通画像復元タスクにおいて、Hi-IRはその有効性と一般化性を達成する。
論文 参考訳(メタデータ) (2024-11-27T18:30:08Z) - An Intelligent Agentic System for Complex Image Restoration Problems [39.93819777300997]
AgenticIRは、イメージ処理に対する人間のアプローチを、知覚、スケジューリング、実行、反射、再スケジューリングの5つの重要な段階に従って模倣する。
我々は、テキスト生成を介して対話する大規模言語モデル(LLM)と視覚言語モデル(VLM)を用いて、IRモデルのツールボックスを操作する。
実験では、複雑なIRタスクを扱うAgenicIRの可能性を実証し、視覚処理における汎用知性を達成するための有望な道を示す。
論文 参考訳(メタデータ) (2024-10-23T12:11:26Z) - LoRA-IR: Taming Low-Rank Experts for Efficient All-in-One Image Restoration [62.3751291442432]
高速なオールインワン画像復元を実現するために,コンパクトな低ランクの専門家を動的に活用する,フレキシブルなフレームワークであるLoRA-IRを提案する。
LoRA-IRは、劣化誘導前訓練とパラメータ効率の良い微調整の2つの訓練段階で構成されている。
実験により、LoRA-IRは計算効率を維持しつつ、14のIRタスクと29のベンチマークでSOTA性能を達成することが示された。
論文 参考訳(メタデータ) (2024-10-20T13:00:24Z) - DRM-IR: Task-Adaptive Deep Unfolding Network for All-In-One Image
Restoration [5.573836220587265]
本研究は,効率的な動的参照モデリングパラダイム(DRM-IR)を提案する。
DRM-IRはタスク適応型劣化モデリングとモデルベースの画像復元で構成されている。
複数のベンチマークデータセットの実験は、DRM-IRがAll-In-One IRで最先端のIRを達成することを示している。
論文 参考訳(メタデータ) (2023-07-15T02:42:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。