論文の概要: Learning Domain-Aware Task Prompt Representations for Multi-Domain All-in-One Image Restoration
- arxiv url: http://arxiv.org/abs/2603.01725v1
- Date: Mon, 02 Mar 2026 10:50:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.826314
- Title: Learning Domain-Aware Task Prompt Representations for Multi-Domain All-in-One Image Restoration
- Title(参考訳): マルチドメインオールインワン画像復元のためのドメイン認識タスクプロンプト表現の学習
- Authors: Guanglu Dong, Chunlei Li, Chao Ren, Jingliang Hu, Yilei Shi, Xiao Xiang Zhu, Lichao Mou,
- Abstract要約: 提案したドメイン対応タスクプロンプト表現学習に基づいて,最初のマルチドメインオールインワン画像復元手法であるDATPRL-IRを提案する。
実験により, DATPRL-IRは既存のSOTA画像復元法よりも優れ, 高い一般化能力を示した。
- 参考スコア(独自算出の注目度): 20.978946006613256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, significant breakthroughs have been made in all-in-one image restoration (AiOIR), which can handle multiple restoration tasks with a single model. However, existing methods typically focus on a specific image domain, such as natural scene, medical imaging, or remote sensing. In this work, we aim to extend AiOIR to multiple domains and propose the first multi-domain all-in-one image restoration method, DATPRL-IR, based on our proposed Domain-Aware Task Prompt Representation Learning. Specifically, we first construct a task prompt pool containing multiple task prompts, in which task-related knowledge is implicitly encoded. For each input image, the model adaptively selects the most relevant task prompts and composes them into an instance-level task representation via a prompt composition mechanism (PCM). Furthermore, to endow the model with domain awareness, we introduce another domain prompt pool and distill domain priors from multimodal large language models into the domain prompts. PCM is utilized to combine the adaptively selected domain prompts into a domain representation for each input image. Finally, the two representations are fused to form a domain-aware task prompt representation which can make full use of both specific and shared knowledge across tasks and domains to guide the subsequent restoration process. Extensive experiments demonstrate that our DATPRL-IR significantly outperforms existing SOTA image restoration methods, while exhibiting strong generalization capabilities. Code is available at https://github.com/GuangluDong0728/DATPRL-IR.
- Abstract(参考訳): 近年、オールインワン画像復元(AiOIR)において、複数の復元タスクを単一モデルで処理できる重要なブレークスルーがおこなわれている。
しかし、既存の手法は、通常、自然のシーン、医療画像、リモートセンシングなど、特定の画像領域に焦点を当てている。
本研究では、AiOIRを複数のドメインに拡張し、提案したドメイン対応タスクプロンプト表現学習に基づいて、最初のマルチドメインオールインワン画像復元手法であるDATPRL-IRを提案する。
具体的には、まず複数のタスクプロンプトを含むタスクプロンプトプールを構築し、タスク関連の知識を暗黙的に符号化する。
各入力画像に対して、最も関連性の高いタスクプロンプトを適応的に選択し、プロンプト合成機構(PCM)を介してインスタンスレベルのタスク表現に構成する。
さらに、ドメイン認識モデルを実現するために、ドメインプロンプトプールを導入し、マルチモーダルな大言語モデルからドメインプロンプトを蒸留する。
PCMを利用して、適応的に選択されたドメインプロンプトを入力画像ごとにドメイン表現に結合する。
最後に、2つの表現は融合してドメイン対応のタスクプロンプト表現を形成し、タスクとドメインをまたいだ特定の知識と共有知識の両方をフル活用して、その後の復元プロセスを導く。
我々のDATPRL-IRは、強力な一般化能力を示しながら、既存のSOTA画像復元法を著しく上回ることを示した。
コードはhttps://github.com/GuangluDong0728/DATPRL-IRで入手できる。
関連論文リスト
- UPRE: Zero-Shot Domain Adaptation for Object Detection via Unified Prompt and Representation Enhancement [25.139037597606233]
ゼロショット領域適応(ZSDA)は、ターゲット領域に画像が欠如しているため、重大な課題を提起する。
従来のアプローチでは、この課題に対処するためにVLM(Vision-Language Models)を使用していた。
本稿では,テキストプロンプトと視覚表現を協調的に最適化するUPREフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-01T13:00:41Z) - Unity in Diversity: Multi-expert Knowledge Confrontation and Collaboration for Generalizable Vehicle Re-identification [60.20318058777603]
一般化可能な車両再識別(ReID)は、微調整や再訓練を必要とせず、未知のターゲットドメインに適応可能なモデルの開発を目指している。
これまでの研究は主に、ソースドメイン間のデータ分散を調整することで、ドメイン不変の機能の抽出に重点を置いてきた。
そこで本研究では,この問題を解決するために,2段階のMulti-expert Knowledge Confrontation and Collaboration(MiKeCoCo)手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T04:06:39Z) - Domain-Controlled Prompt Learning [49.45309818782329]
既存の素早い学習方法はドメイン認識やドメイン転送機構を欠いていることが多い。
特定のドメインに対するtextbfDomain-Controlled Prompt Learningを提案する。
本手法は,特定の領域画像認識データセットにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-30T02:59:49Z) - Domain Invariant Masked Autoencoders for Self-supervised Learning from
Multi-domains [73.54897096088149]
マルチドメインからの自己教師型学習のためのドメイン不変のMasked AutoEncoder (DiMAE)を提案する。
中心となる考え方は、入力画像を異なるドメインからのスタイルノイズで拡張し、拡張イメージの埋め込みからイメージを再構築することである。
PACSとDomainNetの実験は、最近の最先端の手法と比較して、DiMAEがかなりの利益を得ていることを示している。
論文 参考訳(メタデータ) (2022-05-10T09:49:40Z) - Unsupervised Domain Generalization by Learning a Bridge Across Domains [78.855606355957]
Unsupervised Domain Generalization (UDG) のセットアップでは、ソースもターゲットドメインもトレーニングの監督は行わない。
本手法は,各トレーニング領域からBrADへの視覚的(イメージ間)マッピングを保存したセマンティクスのセットを伴って,補助的なブリッジドメインであるBrAD(Bridge Across Domains)の自己教師型学習に基づいている。
我々は,エッジレギュラー化したBrADを用いて,UDG,Few-shot UDA,マルチドメインデータセット間の教師なし一般化など,複数のベンチマークやタスクにまたがる大幅な向上を実現する方法を示す。
論文 参考訳(メタデータ) (2021-12-04T10:25:45Z) - Self-Supervised Learning of Domain Invariant Features for Depth
Estimation [35.74969527929284]
単一画像深度推定のための教師なし合成-現実的領域適応の課題に対処する。
単一画像深度推定の重要なビルディングブロックはエンコーダ・デコーダ・タスク・ネットワークであり、RGB画像を入力とし、出力として深度マップを生成する。
本稿では,タスクネットワークにドメイン不変表現を自己教師型で学習させる新たなトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2021-06-04T16:45:48Z) - Crossing-Domain Generative Adversarial Networks for Unsupervised
Multi-Domain Image-to-Image Translation [12.692904507625036]
複数の領域にまたがる教師なし画像間翻訳のための一般的なフレームワークを提案する。
提案するフレームワークは,一対のエンコーダと一対のGANから構成される。
論文 参考訳(メタデータ) (2020-08-27T01:54:07Z) - GMM-UNIT: Unsupervised Multi-Domain and Multi-Modal Image-to-Image
Translation via Attribute Gaussian Mixture Modeling [66.50914391679375]
unsupervised image-to-image translation (UNIT) は、未経験の訓練画像を用いて、複数の視覚領域間のマッピングを学習することを目的としている。
最近の研究は、複数のドメインで顕著な成功を示しているが、それらは2つの主要な制限に悩まされている。
GMM-UNITという,空間にGMMを組み込むコンテンツ属性不整合表現に基づく手法を提案する。
論文 参考訳(メタデータ) (2020-03-15T10:18:56Z) - Latent Normalizing Flows for Many-to-Many Cross-Domain Mappings [76.85673049332428]
画像とテキストの合同表現の学習は、画像キャプションのようないくつかの重要なドメイン横断タスクのバックボーンを形成する。
ドメイン間の共有情報とドメイン固有の情報を個別にモデル化する,新しい半教師付きフレームワークを提案する。
画像キャプションやテキスト・ツー・イメージ合成など,様々なタスクにおけるモデルの有効性を示す。
論文 参考訳(メタデータ) (2020-02-16T19:49:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。