論文の概要: OPERA: An Agent for Image Restoration with End-to-End Joint Planning-Execution Optimization
- arxiv url: http://arxiv.org/abs/2605.22104v1
- Date: Thu, 21 May 2026 07:40:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.144888
- Title: OPERA: An Agent for Image Restoration with End-to-End Joint Planning-Execution Optimization
- Title(参考訳): OPERA: エンドツーエンド共同計画-実行最適化による画像復元エージェント
- Authors: Feng Zhu, Shuyang Xie, Yihan Zeng, Ming Liu, Wangmeng Zuo,
- Abstract要約: OPERAは、復元計画とツール実行をエンドツーエンドで共同で最適化するフレームワークである。
OPERAは、多種多様な複雑な劣化シナリオにおいて、オールインワンの復元モデルと既存のエージェントベースのメソッドの両方を一貫して上回っている。
- 参考スコア(独自算出の注目度): 49.99886124874474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world image restoration is challenging due to complex and interacting mixed degradations. Recent agent-based approaches address this problem by composing multiple task-specific restoration tools. However, empirical analysis reveals that their performance is fundamentally limited by implicitly constrained planning spaces and the lack of coordination among independently pretrained tools. To address these issues, we propose OPERA (Optimized Planning-Execution Restoration Agent), a framework that jointly optimizes restoration planning and tool execution in an end-to-end manner. On the planning side, OPERA uses reinforcement learning to directly optimize tool composition over a combinatorial plan space, with the final restoration quality as the reward. On the execution side, OPERA introduces agent-guided co-training of restoration tools, enabling them to learn cooperative behaviors under sequential composition. Extensive experiments on multi-degradation benchmarks and real-world datasets demonstrate that OPERA consistently outperforms both all-in-one restoration models and existing agent-based methods across diverse and complex degradation scenarios.
- Abstract(参考訳): 複雑で相互作用する複合劣化のため、現実のイメージ復元は困難である。
最近のエージェントベースのアプローチでは、複数のタスク固有の復元ツールを構成することでこの問題に対処している。
しかし、実証分析により、その性能は暗黙的に制約された計画空間と、独立に事前訓練されたツール間の調整の欠如によって根本的に制限されていることが明らかになった。
これらの課題に対処するため,復元計画とツール実行をエンドツーエンドで協調的に最適化するOPERA(Optimized Planning-Execution Restoration Agent)を提案する。
計画面では、OPERAは強化学習を使用して、組換え計画空間上でのツール構成を直接最適化し、最終的な修復品質を報奨とする。
実行側では、OPERAはエージェント誘導による修復ツールの協調訓練を導入し、シーケンシャルな構成の下で協調行動を学ぶことができる。
マルチ劣化ベンチマークと実世界のデータセットに関する大規模な実験は、OPERAが多種多様な複雑な劣化シナリオでオールインワンの復元モデルと既存のエージェントベースの手法の両方を一貫して上回っていることを示している。
関連論文リスト
- Agentic Planning with Reasoning for Image Styling via Offline RL [66.10749901925941]
直接的なプロンプトベースの編集は複雑な変換では失敗するが、なぜなら曖昧で主観的なプロンプトは、画像に何を変更するべきかを微妙に理解する必要がしばしばあるからである。
ツールベースのエージェントRLポストトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-07T11:14:37Z) - JADE: Bridging the Strategic-Operational Gap in Dynamic Agentic RAG [34.97756524623194]
RAGは、静的な検索パイプラインから、中央プランナーがマルチターン推論をオーケストレーションする動的エージェントへと移行した。
既存のパラダイムは、厳密な固定グラフアーキテクチャ内でモジュールを共同で最適化するか、あるいは動的計画を強化するか、エグゼキュータを凍結したブラックボックスツールとして扱います。
動的マルチターン内における計画と実行の協調最適化のための統合フレームワークである textbfJADE を提案する。
論文 参考訳(メタデータ) (2026-01-29T16:06:44Z) - From Physical Degradation Models to Task-Aware All-in-One Image Restoration [44.45223512440674]
オールインワン画像復元は、1つの訓練されたモデルで複数の復元タスクを適応的に処理することを目的としている。
我々は、物理劣化モデリングの観点を採用し、効率的なオールインワン画像復元のためのタスク認識逆分解演算子を予測する。
論文 参考訳(メタデータ) (2026-01-15T08:47:10Z) - CoDA: A Context-Decoupled Hierarchical Agent with Reinforcement Learning [12.710191300398924]
我々は,低レベルの実行から高レベルの計画を切り離す強化学習フレームワークであるCoDAを紹介する。
CoDAは、複雑なマルチホップ質問応答ベンチマークにおける最先端のベースラインよりも、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-12-14T14:41:29Z) - Reason-Plan-ReAct: A Reasoner-Planner Supervising a ReAct Executor for Complex Enterprise Tasks [0.0]
RP-ReActは,低レベルの実行から戦略的計画を切り離して信頼性と効率を向上する,新しいマルチエージェントアプローチである。
RP-ReActは、各サブステップを計画するReasoner Planner Agent(RPA)と、サブステップを具体的なツールインタラクションに変換する1つまたは複数のProxy-Execution Agent(PEA)から構成される。
RP-ReActを6つのオープンウェイト推論モデルの多種多様なセットを用いて、挑戦的なマルチドメインツールQAベンチマークで評価する。
論文 参考訳(メタデータ) (2025-12-03T08:28:40Z) - Mixture of Ranks with Degradation-Aware Routing for One-Step Real-World Image Super-Resolution [76.66229730098759]
実世界の画像超解像(Real-ISR)では、既存のアプローチは主に微調整された事前学習拡散モデルに依存している。
単一ステップ画像超解像のためのMixture-of-Ranks (MoR)アーキテクチャを提案する。
LoRAの各ランクを独立した専門家として扱う、きめ細かい専門家分割戦略を導入する。
論文 参考訳(メタデータ) (2025-11-20T04:11:44Z) - Beyond ReAct: A Planner-Centric Framework for Complex Tool-Augmented LLM Reasoning [31.679428422518082]
そこで我々は,局所最適化ボトルネックを解決するために,プランナー中心のPlan-Executeパラダイムを提案する。
新しいプランナーモデルでは、複雑なクエリのためのグローバル指向非巡回グラフ(DAG)計画を実行する。
複雑なクエリを特徴とする大規模ベンチマークデータセットである ComplexTool-Plan も紹介する。
有能なエグゼキュータと統合すると、我々のフレームワークは複雑なユーザクエリのためのStableToolBenchベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-11-13T07:22:27Z) - Beyond Degradation Redundancy: Contrastive Prompt Learning for All-in-One Image Restoration [109.38288333994407]
コントラスト・プロンプト・ラーニング(Contrastive Prompt Learning, CPL)は、プロンプト・タスクのアライメントを根本的に強化する新しいフレームワークである。
本フレームワークは,パラメータ効率を保ちながら,新たな最先端性能を確立し,統一画像復元のための原理的ソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-14T08:24:57Z) - LoRA-IR: Taming Low-Rank Experts for Efficient All-in-One Image Restoration [62.3751291442432]
高速なオールインワン画像復元を実現するために,コンパクトな低ランクの専門家を動的に活用する,フレキシブルなフレームワークであるLoRA-IRを提案する。
LoRA-IRは、劣化誘導前訓練とパラメータ効率の良い微調整の2つの訓練段階で構成されている。
実験により、LoRA-IRは計算効率を維持しつつ、14のIRタスクと29のベンチマークでSOTA性能を達成することが示された。
論文 参考訳(メタデータ) (2024-10-20T13:00:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。