論文の概要: Exploring Scalable Unified Modeling for General Low-Level Vision
- arxiv url: http://arxiv.org/abs/2507.14801v1
- Date: Sun, 20 Jul 2025 03:22:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.064776
- Title: Exploring Scalable Unified Modeling for General Low-Level Vision
- Title(参考訳): 汎用低レベルビジョンのためのスケーラブル統一モデリングの探索
- Authors: Xiangyu Chen, Kaiwen Zhu, Yuandong Pu, Shuo Cao, Xiaohui Li, Wenlong Zhang, Yihao Liu, Yu Qiao, Jiantao Zhou, Chao Dong,
- Abstract要約: 低レベルの視覚は、画像復元、強化、スタイリゼーション、特徴抽出を含む幅広いタスクを含む。
このような多様なタスクにまたがる統合モデリングの課題に対処するため、我々はVisual Task Promptベースの画像処理フレームワークを提案する。
我々は、統一された低レベル視覚モデルGenLVを開発し、その性能を複数の代表タスクで評価する。
- 参考スコア(独自算出の注目度): 39.89755374452788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-level vision involves a wide spectrum of tasks, including image restoration, enhancement, stylization, and feature extraction, which differ significantly in both task formulation and output domains. To address the challenge of unified modeling across such diverse tasks, we propose a Visual task Prompt-based Image Processing (VPIP) framework that leverages input-target image pairs as visual prompts to guide the model in performing a variety of low-level vision tasks. The framework comprises an end-to-end image processing backbone, a prompt encoder, and a prompt interaction module, enabling flexible integration with various architectures and effective utilization of task-specific visual representations. Based on this design, we develop a unified low-level vision model, GenLV, and evaluate its performance across multiple representative tasks. To explore the scalability of this approach, we extend the framework along two dimensions: model capacity and task diversity. We construct a large-scale benchmark consisting of over 100 low-level vision tasks and train multiple versions of the model with varying scales. Experimental results show that the proposed method achieves considerable performance across a wide range of tasks. Notably, increasing the number of training tasks enhances generalization, particularly for tasks with limited data, indicating the model's ability to learn transferable representations through joint training. Further evaluations in zero-shot generalization, few-shot transfer, and task-specific fine-tuning scenarios demonstrate the model's strong adaptability, confirming the effectiveness, scalability, and potential of the proposed framework as a unified foundation for general low-level vision modeling.
- Abstract(参考訳): 低レベルの視覚は、画像復元、強化、スタイリゼーション、特徴抽出など幅広いタスクを含むが、タスクの定式化と出力の領域では大きな違いがある。
このような多様なタスクにまたがる統合モデリングの課題に対処するために,入力対象のイメージペアを視覚的プロンプトとして活用し,様々な低レベルなビジョンタスクを実行する際のモデル案内を行う視覚タスク Prompt-based Image Processing (VPIP) フレームワークを提案する。
このフレームワークは、エンドツーエンドの画像処理バックボーン、プロンプトエンコーダ、およびプロンプトインタラクションモジュールを備え、様々なアーキテクチャとのフレキシブルな統合とタスク固有の視覚表現の有効活用を可能にする。
この設計に基づいて、統一された低レベル視覚モデルGenLVを開発し、その性能を複数の代表タスクで評価する。
このアプローチのスケーラビリティを探るため、モデルのキャパシティとタスクの多様性という2つの側面に沿ってフレームワークを拡張します。
我々は100以上の低レベル視覚タスクからなる大規模ベンチマークを構築し、様々なスケールでモデルの複数のバージョンを訓練する。
実験結果から,提案手法は幅広いタスクにまたがってかなりの性能を発揮することがわかった。
特に、トレーニングタスクの数を増やすことで、特に限られたデータを持つタスクに対する一般化が促進され、モデルが共同トレーニングを通じて伝達可能な表現を学習できることが示される。
ゼロショット一般化、少数ショット転送、タスク固有の微調整シナリオのさらなる評価は、モデルが強い適応性を示し、一般的な低レベル視覚モデリングの統一基盤として提案されるフレームワークの有効性、拡張性、ポテンシャルを確認する。
関連論文リスト
- Weaving Context Across Images: Improving Vision-Language Models through Focus-Centric Visual Chains [31.828341309787042]
視覚言語モデル(VLM)は、単一画像タスクにおいて顕著な成功を収める。
現実のシナリオでは複雑なマルチイメージの入力が伴うことが多く、パフォーマンスが著しく低下する。
マルチイメージシナリオにおけるVLMの知覚、理解、推論能力を高める新しいパラダイムであるFocus-Centric Visual Chainを提案する。
論文 参考訳(メタデータ) (2025-04-28T19:02:18Z) - VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning [68.98988753763666]
ユニバーサル画像生成フレームワークであるVisualClozeを提案する。
VisualClozeは、幅広いドメイン内タスク、見えないタスクへの一般化、複数のタスクの見えない統一、リバースジェネレーションをサポートする。
グラフ構造化データセットであるGraph200Kを導入し,タスク密度と伝達可能な知識を向上する。
論文 参考訳(メタデータ) (2025-04-10T17:59:42Z) - UniVG: A Generalist Diffusion Model for Unified Image Generation and Editing [59.590505989071175]
テキスト・ツー・イメージ(T2I)拡散モデルでは、ユーザのプロンプトに従って視覚的に魅力的な画像を生成するという印象的な結果が示されている。
我々は,一組の重みで多様な画像生成タスクをサポートする汎用拡散モデルUniVGを紹介する。
論文 参考訳(メタデータ) (2025-03-16T21:11:25Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - Unifying Image Processing as Visual Prompting Question Answering [62.84955983910612]
画像処理はコンピュータビジョンの基本的な課題であり、画像の品質を高め、その後の視覚アプリケーションに不可欠な特徴を抽出することを目的としている。
伝統的に、タスク固有のモデルは個々のタスクのために開発され、そのようなモデルの設計には異なる専門知識が必要である。
本稿では,画像復元,画像強調,画像特徴抽出タスクを網羅する汎用画像処理モデルを提案する。
論文 参考訳(メタデータ) (2023-10-16T15:32:57Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Generative Modeling for Multi-task Visual Learning [40.96212750592383]
様々な視覚的認知タスクにおいて有用な共有生成モデルを学ぶという,新しい問題を考える。
本稿では,識別型マルチタスクネットワークと生成ネットワークを結合して,汎用的なマルチタスク指向生成モデリングフレームワークを提案する。
我々のフレームワークは、最先端のマルチタスクアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2021-06-25T03:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。