論文の概要: Hybrid Agents for Image Restoration
- arxiv url: http://arxiv.org/abs/2503.10120v1
- Date: Thu, 13 Mar 2025 07:28:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:51:28.474607
- Title: Hybrid Agents for Image Restoration
- Title(参考訳): 画像修復のためのハイブリッドエージェント
- Authors: Bingchen Li, Xin Li, Yiting Lu, Zhibo Chen,
- Abstract要約: 本稿では,複数再生モードを統合画像復元モデルに組み込むことを目的としたHybridAgentを提案する。
高速復元エージェントは,ユーザプロンプトを理解するためのコンテキスト内学習を通じて,軽量な大規模言語モデル(LLM)に基づいて設計されている。
我々は,従来のエージェントベース作業では重要ではなかったハイブリッドエージェントに対して,混合歪み除去モードを導入する。
- 参考スコア(独自算出の注目度): 16.534263448775103
- License:
- Abstract: Existing Image Restoration (IR) studies typically focus on task-specific or universal modes individually, relying on the mode selection of users and lacking the cooperation between multiple task-specific/universal restoration modes. This leads to insufficient interaction for unprofessional users and limits their restoration capability for complicated real-world applications. In this work, we present HybridAgent, intending to incorporate multiple restoration modes into a unified image restoration model and achieve intelligent and efficient user interaction through our proposed hybrid agents. Concretely, we propose the hybrid rule of fast, slow, and feedback restoration agents. Here, the slow restoration agent optimizes the powerful multimodal large language model (MLLM) with our proposed instruction-tuning dataset to identify degradations within images with ambiguous user prompts and invokes proper restoration tools accordingly. The fast restoration agent is designed based on a lightweight large language model (LLM) via in-context learning to understand the user prompts with simple and clear requirements, which can obviate the unnecessary time/resource costs of MLLM. Moreover, we introduce the mixed distortion removal mode for our HybridAgents, which is crucial but not concerned in previous agent-based works. It can effectively prevent the error propagation of step-by-step image restoration and largely improve the efficiency of the agent system. We validate the effectiveness of HybridAgent with both synthetic and real-world IR tasks.
- Abstract(参考訳): 既存の画像復元(IR)研究は、通常、個別にタスク固有モードまたはユニバーサルモードに焦点を当て、ユーザのモード選択に依存し、複数のタスク固有/ユニバーサル復元モード間の協調を欠いている。
これにより、プロフェッショナルでないユーザにとってのインタラクションが不十分になり、複雑な現実世界のアプリケーションに対するリカバリ能力が制限される。
本稿では,複数の復元モードを統合画像復元モデルに統合し,提案するハイブリッドエージェントによるインテリジェントで効率的なユーザインタラクションを実現するためのHybridAgentを提案する。
具体的には、高速、低速、フィードバック回復剤のハイブリッドルールを提案する。
本稿では,画像内の劣化を不明瞭なユーザプロンプトで識別し,それに応じて適切な復元ツールを起動する命令チューニングデータセットを用いて,強力なマルチモーダル大言語モデル(MLLM)を最適化する。
この高速復元エージェントは,MLLMの不要な時間/リソースコストを軽減し,ユーザプロンプトをシンプルかつ明確な要求で理解するために,コンテキスト内学習による軽量な大規模言語モデル(LLM)に基づいて設計されている。
さらに,従来のエージェントベースでは重要ではなかったハイブリッドエージェントに対して,混合歪み除去モードを導入する。
ステップバイステップ画像復元のエラー伝播を効果的に防止し、エージェントシステムの効率を大幅に向上させることができる。
人工と現実世界の両方のIRタスクでHybridAgentの有効性を検証する。
関連論文リスト
- UniRestore: Unified Perceptual and Task-Oriented Image Restoration Model Using Diffusion Prior [56.35236964617809]
画像復元は、悪天候、ぼやけ、騒音などの様々な要因によって劣化した入力からコンテンツを回復することを目的としている。
本稿では,PIRとTIRのギャップを埋める統一画像復元モデルUniRestoreを紹介する。
本稿では,分解エンコーダの特徴を再構築するための補足的特徴回復モジュール (CFRM) と,デコーダの適応的特徴融合を容易にするタスク特徴適応モジュール (TFA) を提案する。
論文 参考訳(メタデータ) (2025-01-22T08:06:48Z) - Mixed Degradation Image Restoration via Local Dynamic Optimization and Conditional Embedding [67.57487747508179]
マルチインワン画像復元 (IR) は, 一つのモデルで全ての種類の劣化画像復元を処理し, 大幅な進歩を遂げている。
本稿では,単一と混合の分解で画像を効果的に復元できる新しいマルチインワンIRモデルを提案する。
論文 参考訳(メタデータ) (2024-11-25T09:26:34Z) - An Intelligent Agentic System for Complex Image Restoration Problems [39.93819777300997]
AgenticIRは、イメージ処理に対する人間のアプローチを、知覚、スケジューリング、実行、反射、再スケジューリングの5つの重要な段階に従って模倣する。
我々は、テキスト生成を介して対話する大規模言語モデル(LLM)と視覚言語モデル(VLM)を用いて、IRモデルのツールボックスを操作する。
実験では、複雑なIRタスクを扱うAgenicIRの可能性を実証し、視覚処理における汎用知性を達成するための有望な道を示す。
論文 参考訳(メタデータ) (2024-10-23T12:11:26Z) - UIR-LoRA: Achieving Universal Image Restoration through Multiple Low-Rank Adaptation [50.27688690379488]
既存の統合手法は、マルチタスク学習問題として、多重劣化画像復元を扱う。
本稿では,複数のローランクアダプタ(LoRA)をベースとした汎用画像復元フレームワークを提案する。
本フレームワークは, 学習前の生成モデルを多段劣化復元のための共有コンポーネントとして利用し, 特定の劣化画像復元タスクに転送する。
論文 参考訳(メタデータ) (2024-09-30T11:16:56Z) - RestoreAgent: Autonomous Image Restoration Agent via Multimodal Large Language Models [45.88103575837924]
マルチモーダルな大言語モデルを活用したインテリジェントな画像復元システムであるRestoreAgentを紹介する。
RestoreAgentは、入力画像の劣化の種類と程度を自律的に評価し、(1)適切な復元タスクを決定すること、(2)タスクシーケンスを最適化すること、(3)最も適切なモデルを選択すること、(4)復元を実行することを通じて復元を行う。
実験結果は,RestoreAgentの複雑な劣化処理における優れた性能を示し,人間の専門家を上回った。
論文 参考訳(メタデータ) (2024-07-25T13:29:37Z) - Restorer: Removing Multi-Degradation with All-Axis Attention and Prompt Guidance [12.066756224383827]
textbfRestorerはトランスフォーマーベースのオールインワン画像復元モデルである。
追加のトレーニングを必要とせずに、現実世界のシナリオで複合的な劣化を処理することができる。
推論中は効率が良く、現実世界の応用の可能性も示唆している。
論文 参考訳(メタデータ) (2024-06-18T13:18:32Z) - Unified-Width Adaptive Dynamic Network for All-In-One Image Restoration [50.81374327480445]
本稿では, 複雑な画像劣化を基本劣化の観点で表現できる, という新しい概念を提案する。
We propose the Unified-Width Adaptive Dynamic Network (U-WADN) which consist of two pivotal components: a Width Adaptive Backbone (WAB) and a Width Selector (WS)。
提案したU-WADNは、最大32.3%のFLOPを同時に削減し、約15.7%のリアルタイム加速を実現している。
論文 参考訳(メタデータ) (2024-01-24T04:25:12Z) - Multimodal Prompt Perceiver: Empower Adaptiveness, Generalizability and Fidelity for All-in-One Image Restoration [58.11518043688793]
MPerceiverは、オールインワン画像復元のための適応性、一般化性、忠実性を高める新しいアプローチである。
MPerceiverは、オールインワンIRの9つのタスクでトレーニングされ、ほとんどのタスクで最先端のタスク固有のメソッドより優れています。
論文 参考訳(メタデータ) (2023-12-05T17:47:11Z) - Prompt-based Ingredient-Oriented All-in-One Image Restoration [0.0]
複数の画像劣化課題に対処する新しいデータ成分指向手法を提案する。
具体的には、エンコーダを用いて特徴をキャプチャし、デコーダを誘導するための劣化情報を含むプロンプトを導入する。
我々の手法は最先端技術と競争的に機能する。
論文 参考訳(メタデータ) (2023-09-06T15:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。