Fugu-MT 論文翻訳(概要): Unifying Image Processing as Visual Prompting Question Answering

論文の概要: Unifying Image Processing as Visual Prompting Question Answering

arxiv url: http://arxiv.org/abs/2310.10513v2
Date: Wed, 21 Feb 2024 03:31:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-22 20:03:57.098948
Title: Unifying Image Processing as Visual Prompting Question Answering
Title（参考訳）: ビジュアルプロンプト質問回答としての画像処理の統一
Authors: Yihao Liu, Xiangyu Chen, Xianzheng Ma, Xintao Wang, Jiantao Zhou, Yu Qiao, Chao Dong
Abstract要約: 画像処理はコンピュータビジョンの基本的な課題であり、画像の品質を高め、その後の視覚アプリケーションに不可欠な特徴を抽出することを目的としている。伝統的に、タスク固有のモデルは個々のタスクのために開発され、そのようなモデルの設計には異なる専門知識が必要である。本稿では,画像復元,画像強調,画像特徴抽出タスクを網羅する汎用画像処理モデルを提案する。
参考スコア（独自算出の注目度）: 62.84955983910612
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Image processing is a fundamental task in computer vision, which aims at enhancing image quality and extracting essential features for subsequent vision applications. Traditionally, task-specific models are developed for individual tasks and designing such models requires distinct expertise. Building upon the success of large language models (LLMs) in natural language processing (NLP), there is a similar trend in computer vision, which focuses on developing large-scale models through pretraining and in-context learning. This paradigm shift reduces the reliance on task-specific models, yielding a powerful unified model to deal with various tasks. However, these advances have predominantly concentrated on high-level vision tasks, with less attention paid to low-level vision tasks. To address this issue, we propose a universal model for general image processing that covers image restoration, image enhancement, image feature extraction tasks, etc. Our proposed framework, named PromptGIP, unifies these diverse image processing tasks within a universal framework. Inspired by NLP question answering (QA) techniques, we employ a visual prompting question answering paradigm. Specifically, we treat the input-output image pair as a structured question-answer sentence, thereby reprogramming the image processing task as a prompting QA problem. PromptGIP can undertake diverse cross-domain tasks using provided visual prompts, eliminating the need for task-specific finetuning. Our methodology offers a universal and adaptive solution to general image processing. While PromptGIP has demonstrated a certain degree of out-of-domain task generalization capability, further research is expected to fully explore its more powerful emergent generalization.
Abstract（参考訳）: 画像処理はコンピュータビジョンの基本的な課題であり、画像の品質を高め、その後の視覚アプリケーションに不可欠な特徴を抽出することを目的としている。伝統的に、タスク固有のモデルは個々のタスクのために開発され、そのようなモデルの設計には異なる専門知識が必要である。自然言語処理(NLP)における大規模言語モデル(LLM)の成功に基づき、コンピュータビジョンにも同様の傾向があり、事前学習と文脈学習による大規模モデルの開発に焦点を当てている。このパラダイムシフトはタスク固有のモデルへの依存を減らし、様々なタスクを扱う強力な統一モデルを生み出す。しかし、これらの進歩は主に高レベルの視覚タスクに集中しており、低レベルの視覚タスクにはあまり注意を払わない。この問題に対処するために,画像復元,画像強調,画像特徴抽出タスクなどをカバーする汎用画像処理モデルを提案する。提案するプロンプトgipというフレームワークは,これら多様な画像処理タスクをユニバーサルフレームワークに統合する。 NLP質問応答(QA)技術にインスパイアされた我々は、視覚的な質問応答パラダイムを採用している。具体的には、入力出力画像ペアを構造化質問応答文として扱い、画像処理タスクをプロンプトqa問題として再プログラミングする。 PromptGIPは、与えられた視覚的プロンプトを使用して、多様なクロスドメインタスクを実行できる。本手法は一般的な画像処理に対して普遍的かつ適応的なソリューションを提供する。 promptgipはある程度の領域外タスク一般化能力を示しているが、さらなる研究がより強力な創発的一般化を探求することが期待されている。

関連論文リスト

PlanViz: Evaluating Planning-Oriented Image Generation and Editing for Computer-Use Tasks [52.5195594960371]
コンピュータ用タスクの画像生成と編集を行うための新しいベンチマークであるPlanVizを提案する。ルート計画、ワークダイアグラム、Web&UI表示の3つの新しいサブタスクが設計されている。総合的かつ正確な評価の課題に対して,タスク適応型スコアであるPlanScoreを提案する。
論文参考訳（メタデータ） (2026-02-06T12:47:16Z)
Exploring Scalable Unified Modeling for General Low-Level Vision [39.89755374452788]
低レベルの視覚は、画像復元、強化、スタイリゼーション、特徴抽出を含む幅広いタスクを含む。このような多様なタスクにまたがる統合モデリングの課題に対処するため、我々はVisual Task Promptベースの画像処理フレームワークを提案する。我々は、統一された低レベル視覚モデルGenLVを開発し、その性能を複数の代表タスクで評価する。
論文参考訳（メタデータ） (2025-07-20T03:22:52Z)
VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning [68.98988753763666]
ユニバーサル画像生成フレームワークであるVisualClozeを提案する。 VisualClozeは、幅広いドメイン内タスク、見えないタスクへの一般化、複数のタスクの見えない統一、リバースジェネレーションをサポートする。グラフ構造化データセットであるGraph200Kを導入し,タスク密度と伝達可能な知識を向上する。
論文参考訳（メタデータ） (2025-04-10T17:59:42Z)
MoColl: Agent-Based Specific and General Model Collaboration for Image Captioning [4.955697042432618]
本稿では,MoCollと呼ばれる新しいエージェント強化モデルコラボレーションフレームワークを提案する。 MoCollは複雑なイメージキャプションタスクを一連の相互接続された質問応答サブタスクに分解する。放射線学レポート生成実験の結果,提案手法の有効性が検証された。
論文参考訳（メタデータ） (2025-01-03T14:38:01Z)
X-Prompt: Towards Universal In-Context Image Generation in Auto-Regressive Vision Language Foundation Models [77.98981338798383]
インコンテキスト生成は、大規模言語モデル(LLM)のオープンタスク一般化機能の重要なコンポーネントである。 X-Promptは純粋に自動回帰型の大規模言語モデルであり、画像生成タスクと見えないタスクの両方で、幅広いパフォーマンスを提供するように設計されている。テキストと画像の予測を統一したトレーニングタスクにより、X-Promptは、テキスト内の例からタスク認識を強化して、一般的な画像生成を処理できる。
論文参考訳（メタデータ） (2024-12-02T18:59:26Z)
Learning A Low-Level Vision Generalist via Visual Task Prompt [43.54563263106761]
本稿では,これらの課題を克服するために,視覚タスクプロンプトベース画像処理(VPIP)フレームワークを提案する。 VPIPは視覚的なタスクプロンプトを使用して、異なる入力ターゲットドメインでタスクを管理し、バックボーンネットワークの柔軟な選択を可能にする。 VPIPフレームワークに基づいて、30種類のタスクで低レベルのビジョンジェネラリストモデル、すなわちGenLVをトレーニングする。
論文参考訳（メタデータ） (2024-08-16T08:37:56Z)
Multi-Expert Adaptive Selection: Task-Balancing for All-in-One Image Restoration [20.04384107349706]
マルチタスク画像復元のためのマルチエキスパート適応選択機構を提案する。このスキームは、入力画像の内容と現在のタスクのプロンプトに応じて、エキスパートライブラリから最も適した専門家を適応的に選択する。実験の結果,提案手法は既存手法よりも有効かつ優れていることがわかった。
論文参考訳（メタデータ） (2024-07-27T01:13:07Z)
PromptFix: You Prompt and We Fix the Photo [84.69812824355269]
言語モデルを備えた拡散モデルは、画像生成タスクにおいて優れた制御性を示す。多様な命令追跡データの欠如は、モデルの開発を妨げている。本稿では,人間の指示に従う拡散モデルを実現するフレームワークであるPromptFixを提案する。
論文参考訳（メタデータ） (2024-05-27T03:13:28Z)
Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。 2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文参考訳（メタデータ） (2023-12-19T18:53:01Z)
InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。 InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文参考訳（メタデータ） (2023-09-30T14:26:43Z)
Tuning computer vision models with task rewards [88.45787930908102]
モデル予測と意図された使用法とのミスは、コンピュータビジョンモデルの展開に有害である。自然言語処理では、モデルとタスク報酬を整合させる強化学習技術を用いて、この問題に対処することが多い。我々はこのアプローチを採用し、オブジェクト検出、汎視的セグメンテーション、着色、画像キャプションなど、複数のコンピュータビジョンタスクにまたがる驚くべき効果を示す。
論文参考訳（メタデータ） (2023-02-16T11:49:48Z)
Images Speak in Images: A Generalist Painter for In-Context Visual Learning [98.78475432114595]
コンテキスト内学習により、モデルはいくつかのプロンプトと例だけで、様々なタスクに迅速に適応できる。汎用タスクをどのように定義すれば、ビジョンモデルがドメイン外のタスクを理解し、転送できるのかは不明だ。我々は、コアビジョンタスクの出力をイメージとして再定義し、タスクプロンプトを画像として指定する汎用モデルであるPapererを提案する。
論文参考訳（メタデータ） (2022-12-05T18:59:50Z)
Generative Modeling for Multi-task Visual Learning [40.96212750592383]
様々な視覚的認知タスクにおいて有用な共有生成モデルを学ぶという,新しい問題を考える。本稿では,識別型マルチタスクネットワークと生成ネットワークを結合して,汎用的なマルチタスク指向生成モデリングフレームワークを提案する。我々のフレームワークは、最先端のマルチタスクアプローチよりも一貫して優れています。
論文参考訳（メタデータ） (2021-06-25T03:42:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。