論文の概要: An Intelligent Agentic System for Complex Image Restoration Problems
- arxiv url: http://arxiv.org/abs/2410.17809v1
- Date: Wed, 23 Oct 2024 12:11:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:55:46.716093
- Title: An Intelligent Agentic System for Complex Image Restoration Problems
- Title(参考訳): 複雑な画像復元問題に対するインテリジェントエージェントシステム
- Authors: Kaiwen Zhu, Jinjin Gu, Zhiyuan You, Yu Qiao, Chao Dong,
- Abstract要約: AgenticIRは、イメージ処理に対する人間のアプローチを、知覚、スケジューリング、実行、反射、再スケジューリングの5つの重要な段階に従って模倣する。
我々は、テキスト生成を介して対話する大規模言語モデル(LLM)と視覚言語モデル(VLM)を用いて、IRモデルのツールボックスを操作する。
実験では、複雑なIRタスクを扱うAgenicIRの可能性を実証し、視覚処理における汎用知性を達成するための有望な道を示す。
- 参考スコア(独自算出の注目度): 39.93819777300997
- License:
- Abstract: Real-world image restoration (IR) is inherently complex and often requires combining multiple specialized models to address diverse degradations. Inspired by human problem-solving, we propose AgenticIR, an agentic system that mimics the human approach to image processing by following five key stages: Perception, Scheduling, Execution, Reflection, and Rescheduling. AgenticIR leverages large language models (LLMs) and vision-language models (VLMs) that interact via text generation to dynamically operate a toolbox of IR models. We fine-tune VLMs for image quality analysis and employ LLMs for reasoning, guiding the system step by step. To compensate for LLMs' lack of specific IR knowledge and experience, we introduce a self-exploration method, allowing the LLM to observe and summarize restoration results into referenceable documents. Experiments demonstrate AgenticIR's potential in handling complex IR tasks, representing a promising path toward achieving general intelligence in visual processing.
- Abstract(参考訳): 実世界の画像復元(IR)は本質的に複雑であり、多種多様な劣化に対応するために複数の特殊なモデルを組み合わせる必要がある。
本稿では,人間の問題解決に触発されたエージェントIRを提案する。このエージェントIRは,知覚,スケジューリング,実行,反射,再スケジューリングの5つの重要な段階に従うことで,人間の画像処理へのアプローチを模倣するエージェントシステムである。
AgenticIRは、テキスト生成を介して対話する大きな言語モデル(LLM)と視覚言語モデル(VLM)を活用して、IRモデルのツールボックスを動的に操作する。
我々は、画像品質解析のためにVLMを微調整し、推論にLLMを使用し、システムステップを段階的に導く。
LLMの特定の赤外線知識と経験の欠如を補うために、自己探索法を導入し、LLMが復元結果を参照可能な文書に観察・要約できるようにする。
実験では、複雑なIRタスクを扱うAgenicIRの可能性を実証し、視覚処理における汎用知性を達成するための有望な道を示す。
関連論文リスト
- LoRA-IR: Taming Low-Rank Experts for Efficient All-in-One Image Restoration [62.3751291442432]
高速なオールインワン画像復元を実現するために,コンパクトな低ランクの専門家を動的に活用する,フレキシブルなフレームワークであるLoRA-IRを提案する。
LoRA-IRは、劣化誘導前訓練とパラメータ効率の良い微調整の2つの訓練段階で構成されている。
LoRA-IRは14のイメージ復元タスクと29のベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-10-20T13:00:24Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - IM-RAG: Multi-Round Retrieval-Augmented Generation Through Learning Inner Monologues [10.280113107290067]
IM-RAGアプローチは、多ラウンドRAGをサポートするために、情報検索システムとLarge Language Models (LLM)を統合する。
IMプロセス全体が強化学習(Reinforcement Learning, RL)によって最適化され、プログレストラッカーが組み込まれ、中間段階の報酬が提供される。
提案手法は, 赤外線モジュールの統合において高い柔軟性を提供しながら, 最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2024-05-15T12:41:20Z) - Self-Retrieval: End-to-End Information Retrieval with One Large Language Model [97.71181484082663]
本稿では,新たなLLM駆動情報検索アーキテクチャであるSelf-Retrievalを紹介する。
自己検索は、自己教師付き学習を通じて検索コーパスを内部化し、検索プロセスをシーケンシャルな通過生成に変換し、再ランク付けのための関連性評価を行う。
論文 参考訳(メタデータ) (2024-02-23T18:45:35Z) - LLMRA: Multi-modal Large Language Model based Restoration Assistant [25.534022968675337]
本稿では,このギャップに対処するシンプルなMLLMベースの画像復元フレームワークを提案する。
我々はMLLMの印象的な機能を利用して、ユニバーサル画像復元のための劣化情報を得る。
本手法は,MLLMからの画像劣化に先立ち,入力された低品質画像と復元された高画質画像の低レベル属性記述を同時に提供する。
論文 参考訳(メタデータ) (2024-01-21T04:50:19Z) - Multimodal Prompt Perceiver: Empower Adaptiveness, Generalizability and Fidelity for All-in-One Image Restoration [58.11518043688793]
MPerceiverは、オールインワン画像復元のための適応性、一般化性、忠実性を高める新しいアプローチである。
MPerceiverは、オールインワンIRの9つのタスクでトレーニングされ、ほとんどのタスクで最先端のタスク固有のメソッドより優れています。
論文 参考訳(メタデータ) (2023-12-05T17:47:11Z) - Vision-by-Language for Training-Free Compositional Image Retrieval [78.60509831598745]
合成画像検索(CIR)は、データベース内の関連する対象画像を検索することを目的としている。
大規模視覚言語モデル(VLM)を用いた最近の研究動向
我々は、CIReVL(Vision-by-Language)による学習自由なCIRへの取り組みを提案する。
論文 参考訳(メタデータ) (2023-10-13T17:59:38Z) - LMEye: An Interactive Perception Network for Large Language Models [43.160353427015025]
LMEyeは、プレイ・アンド・プラグの対話型知覚ネットワークを備えた人間のような眼である。
大規模言語モデルと外部視覚情報との動的相互作用を可能にする。
様々なマルチモーダルタスクにおけるゼロショット性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-05-05T17:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。