論文の概要: AnyRefill: A Unified, Data-Efficient Framework for Left-Prompt-Guided Vision Tasks
- arxiv url: http://arxiv.org/abs/2502.11158v2
- Date: Tue, 18 Feb 2025 07:25:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:01:55.113877
- Title: AnyRefill: A Unified, Data-Efficient Framework for Left-Prompt-Guided Vision Tasks
- Title(参考訳): AnyRefill: 左プロンプトガイドによる視覚タスクのための統一的でデータ効率の良いフレームワーク
- Authors: Ming Xie, Chenjie Cao, Yunuo Cai, Xiangyang Xue, Yu-Gang Jiang, Yanwei Fu,
- Abstract要約: 本稿では,多様な参照型視覚タスクに対処するため,新しいLPG(Left-Prompt-Guided)パラダイムを提案する。
本稿では,テキスト・ツー・イメージ(T2I)モデルを様々な視覚タスクに効果的に適用するAnyRefillを提案する。
- 参考スコア(独自算出の注目度): 116.8706375364465
- License:
- Abstract: In this paper, we present a novel Left-Prompt-Guided (LPG) paradigm to address a diverse range of reference-based vision tasks. Inspired by the human creative process, we reformulate these tasks using a left-right stitching formulation to construct contextual input. Building upon this foundation, we propose AnyRefill, an extension of LeftRefill, that effectively adapts Text-to-Image (T2I) models to various vision tasks. AnyRefill leverages the inpainting priors of advanced T2I model based on the Diffusion Transformer (DiT) architecture, and incorporates flexible components to enhance its capabilities. By combining task-specific LoRAs with the stitching input, AnyRefill unlocks its potential across diverse tasks, including conditional generation, visual perception, and image editing, without requiring additional visual encoders. Meanwhile, AnyRefill exhibits remarkable data efficiency, requiring minimal task-specific fine-tuning while maintaining high generative performance. Through extensive ablation studies, we demonstrate that AnyRefill outperforms other image condition injection methods and achieves competitive results compared to state-of-the-art open-source methods. Notably, AnyRefill delivers results comparable to advanced commercial tools, such as IC-Light and SeedEdit, even in challenging scenarios. Comprehensive experiments and ablation studies across versatile tasks validate the strong generation of the proposed simple yet effective LPG formulation, establishing AnyRefill as a unified, highly data-efficient solution for reference-based vision tasks.
- Abstract(参考訳): 本稿では,多種多様な参照型視覚タスクに対処する新しい左プロンプトガイド(LPG)パラダイムを提案する。
人間の創造的プロセスに触発されて、左縫いの定式化を用いてこれらのタスクを再構成し、コンテキスト入力を構築する。
この基盤の上に構築されたAnyRefillはLeftRefillの拡張であり、テキスト・トゥ・イメージ(T2I)モデルを様々な視覚タスクに効果的に適用する。
AnyRefill は Diffusion Transformer (DiT) アーキテクチャに基づく先進的な T2I モデルの塗装を取り入れ、柔軟性のあるコンポーネントを組み込んで機能を強化する。
タスク固有のLoRAと縫合入力を組み合わせることで、AnyRefillは、追加のビジュアルエンコーダを必要とせずに、条件生成、視覚知覚、画像編集など、さまざまなタスクにまたがるポテンシャルを解放する。
一方、AnyRefillは、優れたデータ効率を示し、高い生成性能を維持しながら、タスク固有の微調整を最小限にする必要がある。
大規模なアブレーション研究を通じて、AnyRefillは他の画像条件注入法よりも優れており、最先端のオープンソース手法と比較して競合的な結果が得られることを示した。
特にAnyRefillは、挑戦的なシナリオであっても、IC-LightやSeedEditのような高度な商用ツールに匹敵する結果を提供する。
汎用タスクの総合的な実験とアブレーション研究は、提案された単純で効果的なLPG定式化の強力な生成を検証し、AnyRefillを参照ベース視覚タスクの統一的で高効率なソリューションとして確立した。
関連論文リスト
- UniRestore: Unified Perceptual and Task-Oriented Image Restoration Model Using Diffusion Prior [56.35236964617809]
画像復元は、悪天候、ぼやけ、騒音などの様々な要因によって劣化した入力からコンテンツを回復することを目的としている。
本稿では,PIRとTIRのギャップを埋める統一画像復元モデルUniRestoreを紹介する。
本稿では,分解エンコーダの特徴を再構築するための補足的特徴回復モジュール (CFRM) と,デコーダの適応的特徴融合を容易にするタスク特徴適応モジュール (TFA) を提案する。
論文 参考訳(メタデータ) (2025-01-22T08:06:48Z) - LaVin-DiT: Large Vision Diffusion Transformer [99.98106406059333]
LaVin-DiTは、20以上のコンピュータビジョンタスクを生成フレームワークで扱うために設計された、スケーラブルで統一された基盤モデルである。
視覚タスクの生成性能を最適化するための重要なイノベーションを紹介する。
このモデルは0.1Bから3.4Bのパラメータに拡張され、様々な視覚タスクにまたがる相当なスケーラビリティと最先端の性能を示す。
論文 参考訳(メタデータ) (2024-11-18T12:05:27Z) - Instruction-Driven Fusion of Infrared-Visible Images: Tailoring for Diverse Downstream Tasks [9.415977819944246]
赤外線と可視光融合技術の主な価値は、下流のタスクに融合結果を適用することである。
既存の手法では、トレーニングの複雑さが増し、個々のタスクのパフォーマンスが著しく損なわれるといった課題に直面している。
本稿では,タスク指向適応制御(T-OAR)を提案する。
論文 参考訳(メタデータ) (2024-11-14T12:02:01Z) - HiRes-LLaVA: Restoring Fragmentation Input in High-Resolution Large Vision-Language Models [96.76995840807615]
HiRes-LLaVAは、元の文脈情報や幾何学的情報を変更することなく、高解像度入力のサイズを処理するように設計された新しいフレームワークである。
HiRes-LLaVAは、2つの革新的なコンポーネントで構成されている: (i)スライスしたパッチを元の形式に再構築し、ダウンアップサンプリング層と畳み込み層を通じてグローバルとローカルの両方の特徴を効率的に抽出するSliceRestoreアダプタ、(ii)自分自身に基づいてビジョントークンを圧縮するセルフマイニングサンプリング。
論文 参考訳(メタデータ) (2024-07-11T17:42:17Z) - DocRes: A Generalist Model Toward Unifying Document Image Restoration Tasks [38.6455393290578]
本稿では,デウォープ,デシェードイング,外観向上,デブロアリング,バイナライゼーションを含む5つの文書画像復元タスクを統一するDocResを提案する。
DocResに異なる復元タスクを指示するために、Dynamic Task-Specific Prompt (DTSPrompt)と呼ばれる新しいビジュアルプロンプトアプローチを提案する。
DTSPromptは、高解像度で可変解像度の入力にシームレスに適用できるため、従来の視覚的プロンプトアプローチよりも柔軟である。
論文 参考訳(メタデータ) (2024-05-07T15:35:43Z) - Unified-Width Adaptive Dynamic Network for All-In-One Image Restoration [50.81374327480445]
本稿では, 複雑な画像劣化を基本劣化の観点で表現できる, という新しい概念を提案する。
We propose the Unified-Width Adaptive Dynamic Network (U-WADN) which consist of two pivotal components: a Width Adaptive Backbone (WAB) and a Width Selector (WS)。
提案したU-WADNは、最大32.3%のFLOPを同時に削減し、約15.7%のリアルタイム加速を実現している。
論文 参考訳(メタデータ) (2024-01-24T04:25:12Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - Dual-Gated Fusion with Prefix-Tuning for Multi-Modal Relation Extraction [13.454953507205278]
マルチモーダル関係抽出は、視覚的手がかりを含むテキスト中の2つの実体間の関係を特定することを目的としている。
本稿では,テキスト,エンティティペア,画像/オブジェクトのより深い相関関係をよりよく捉えるための新しいMMREフレームワークを提案する。
本手法は, 少数の状況においても, 強力な競合相手と比較して優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-06-19T15:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。