論文の概要: Unifying Image Processing as Visual Prompting Question Answering
- arxiv url: http://arxiv.org/abs/2310.10513v1
- Date: Mon, 16 Oct 2023 15:32:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 13:25:02.051673
- Title: Unifying Image Processing as Visual Prompting Question Answering
- Title(参考訳): ビジュアルプロンプト質問回答としての画像処理の統一
- Authors: Yihao Liu, Xiangyu Chen, Xianzheng Ma, Xintao Wang, Jiantao Zhou, Yu
Qiao, Chao Dong
- Abstract要約: 画像処理はコンピュータビジョンの基本的な課題であり、画像の品質を高め、その後の視覚アプリケーションに不可欠な特徴を抽出することを目的としている。
本稿では,画像復元,画像強調,画像特徴抽出タスク,textitetcをカバーする汎用画像処理モデルを提案する。
提案するフレームワークであるPromptGIPは,これらの多様な画像処理タスクを普遍的なフレームワークに統合する。
- 参考スコア(独自算出の注目度): 62.84955983910612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image processing is a fundamental task in computer vision, which aims at
enhancing image quality and extracting essential features for subsequent vision
applications. Traditionally, task-specific models are developed for individual
tasks and designing such models requires distinct expertise. Building upon the
success of large language models (LLMs) in natural language processing (NLP),
there is a similar trend in computer vision, which focuses on developing
large-scale models through pretraining and in-context learning. This paradigm
shift reduces the reliance on task-specific models, yielding a powerful unified
model to deal with various tasks. However, these advances have predominantly
concentrated on high-level vision tasks, with less attention paid to low-level
vision tasks. To address this issue, we propose a universal model for general
image processing that covers image restoration, image enhancement, image
feature extraction tasks, \textit{etc}. Our proposed framework, named
PromptGIP, unifies these diverse image processing tasks within a universal
framework. Inspired by NLP question answering (QA) techniques, we employ a
visual prompting question answering paradigm. Specifically, we treat the
input-output image pair as a structured question-answer sentence, thereby
reprogramming the image processing task as a prompting QA problem. PromptGIP
can undertake diverse \textbf{cross-domain} tasks using provided visual
prompts, eliminating the need for task-specific finetuning. Our methodology
offers a universal and adaptive solution to general image processing. While
PromptGIP has demonstrated a certain degree of out-of-domain task
generalization capability, further research is expected to fully explore its
more powerful emergent generalization.
- Abstract(参考訳): 画像処理はコンピュータビジョンの基本的な課題であり、画像の品質を高め、その後の視覚アプリケーションに不可欠な特徴を抽出することを目的としている。
伝統的に、タスク固有のモデルは個々のタスクのために開発され、そのようなモデルの設計には異なる専門知識が必要である。
自然言語処理(NLP)における大規模言語モデル(LLM)の成功に基づき、コンピュータビジョンにも同様の傾向があり、事前学習と文脈学習による大規模モデルの開発に焦点を当てている。
このパラダイムシフトはタスク固有のモデルへの依存を減らし、様々なタスクを扱う強力な統一モデルを生み出す。
しかし、これらの進歩は主に高レベルの視覚タスクに集中しており、低レベルの視覚タスクにはあまり注意を払わない。
この問題に対処するために,画像復元,画像強調,画像特徴抽出タスク, \textit{etc} をカバーする汎用画像処理モデルを提案する。
提案するプロンプトgipというフレームワークは,これら多様な画像処理タスクをユニバーサルフレームワークに統合する。
NLP質問応答(QA)技術にインスパイアされた我々は、視覚的な質問応答パラダイムを採用している。
具体的には、入力出力画像ペアを構造化質問応答文として扱い、画像処理タスクをプロンプトqa問題として再プログラミングする。
PromptGIPは、提供される視覚的プロンプトを使用して、さまざまな \textbf{cross-domain} タスクを実行することができる。
本手法は一般的な画像処理に対して普遍的かつ適応的なソリューションを提供する。
promptgipはある程度の領域外タスク一般化能力を示しているが、さらなる研究がより強力な創発的一般化を探求することが期待されている。
関連論文リスト
- Learning A Low-Level Vision Generalist via Visual Task Prompt [43.54563263106761]
本稿では,これらの課題を克服するために,視覚タスクプロンプトベース画像処理(VPIP)フレームワークを提案する。
VPIPは視覚的なタスクプロンプトを使用して、異なる入力ターゲットドメインでタスクを管理し、バックボーンネットワークの柔軟な選択を可能にする。
VPIPフレームワークに基づいて、30種類のタスクで低レベルのビジョンジェネラリストモデル、すなわちGenLVをトレーニングする。
論文 参考訳(メタデータ) (2024-08-16T08:37:56Z) - Multi-Expert Adaptive Selection: Task-Balancing for All-in-One Image Restoration [20.04384107349706]
マルチタスク画像復元のためのマルチエキスパート適応選択機構を提案する。
このスキームは、入力画像の内容と現在のタスクのプロンプトに応じて、エキスパートライブラリから最も適した専門家を適応的に選択する。
実験の結果,提案手法は既存手法よりも有効かつ優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-27T01:13:07Z) - PromptFix: You Prompt and We Fix the Photo [84.69812824355269]
言語モデルを備えた拡散モデルは、画像生成タスクにおいて優れた制御性を示す。
多様な命令追跡データの欠如は、モデルの開発を妨げている。
本稿では,人間の指示に従う拡散モデルを実現するフレームワークであるPromptFixを提案する。
論文 参考訳(メタデータ) (2024-05-27T03:13:28Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。
InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文 参考訳(メタデータ) (2023-09-30T14:26:43Z) - Tuning computer vision models with task rewards [88.45787930908102]
モデル予測と意図された使用法とのミスは、コンピュータビジョンモデルの展開に有害である。
自然言語処理では、モデルとタスク報酬を整合させる強化学習技術を用いて、この問題に対処することが多い。
我々はこのアプローチを採用し、オブジェクト検出、汎視的セグメンテーション、着色、画像キャプションなど、複数のコンピュータビジョンタスクにまたがる驚くべき効果を示す。
論文 参考訳(メタデータ) (2023-02-16T11:49:48Z) - Images Speak in Images: A Generalist Painter for In-Context Visual
Learning [98.78475432114595]
コンテキスト内学習により、モデルはいくつかのプロンプトと例だけで、様々なタスクに迅速に適応できる。
汎用タスクをどのように定義すれば、ビジョンモデルがドメイン外のタスクを理解し、転送できるのかは不明だ。
我々は、コアビジョンタスクの出力をイメージとして再定義し、タスクプロンプトを画像として指定する汎用モデルであるPapererを提案する。
論文 参考訳(メタデータ) (2022-12-05T18:59:50Z) - Generative Modeling for Multi-task Visual Learning [40.96212750592383]
様々な視覚的認知タスクにおいて有用な共有生成モデルを学ぶという,新しい問題を考える。
本稿では,識別型マルチタスクネットワークと生成ネットワークを結合して,汎用的なマルチタスク指向生成モデリングフレームワークを提案する。
我々のフレームワークは、最先端のマルチタスクアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2021-06-25T03:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。