論文の概要: MOWA: Multiple-in-One Image Warping Model
- arxiv url: http://arxiv.org/abs/2404.10716v2
- Date: Mon, 17 Jun 2024 14:57:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 04:57:50.429794
- Title: MOWA: Multiple-in-One Image Warping Model
- Title(参考訳): MOWA:マルチインワンイメージワープモデル
- Authors: Kang Liao, Zongsheng Yue, Zhonghua Wu, Chen Change Loy,
- Abstract要約: 本研究で提案するマルチ・イン・ワン・イメージ・ワープ・モデル(MOWA)について述べる。
領域レベルと画素レベルでの動作推定を両立させることにより,マルチタスク学習の難しさを軽減する。
私たちの知る限り、これは1つのモデルで複数の実用的なワープタスクを解決する最初の作業です。
- 参考スコア(独自算出の注目度): 65.73060159073644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While recent image warping approaches achieved remarkable success on existing benchmarks, they still require training separate models for each specific task and cannot generalize well to different camera models or customized manipulations. To address diverse types of warping in practice, we propose a Multiple-in-One image WArping model (named MOWA) in this work. Specifically, we mitigate the difficulty of multi-task learning by disentangling the motion estimation at both the region level and pixel level. To further enable dynamic task-aware image warping, we introduce a lightweight point-based classifier that predicts the task type, serving as prompts to modulate the feature maps for more accurate estimation. To our knowledge, this is the first work that solves multiple practical warping tasks in one single model. Extensive experiments demonstrate that our MOWA, which is trained on six tasks for multiple-in-one image warping, outperforms state-of-the-art task-specific models across most tasks. Moreover, MOWA also exhibits promising potential to generalize into unseen scenes, as evidenced by cross-domain and zero-shot evaluations. The code and more visual results can be found on the project page: https://kangliao929.github.io/projects/mowa/.
- Abstract(参考訳): 最近の画像ワープアプローチは既存のベンチマークで顕著に成功したが、特定のタスクごとに個別のモデルをトレーニングする必要があるため、異なるカメラモデルやカスタマイズされた操作にうまく対応できない。
本研究で提案するマルチ・イン・ワン・イメージWArpingモデル(MOWA)は,マルチ・イン・ワン・イメージWArpingモデル(Multiple-in-One Image WArping model)である。
具体的には、領域レベルと画素レベルの両方で動作推定を遠ざけることで、マルチタスク学習の難しさを軽減する。
さらに動的なタスク認識画像のワープを可能にするために,タスクタイプを予測する軽量なポイントベース分類器を導入し,より正確な推定のために特徴マップを変調するプロンプトとして機能する。
私たちの知る限り、これは1つのモデルで複数の実用的なワープタスクを解決する最初の作業です。
マルチインワンイメージワープのために6つのタスクでトレーニングされたMOWAは、ほとんどのタスクで最先端のタスク固有モデルより優れています。
さらに、MOWAは、クロスドメインとゼロショットの評価によって証明されているように、目に見えないシーンに一般化する有望な可能性をも示している。
コードとより視覚的な結果は、プロジェクトのページ(https://kangliao929.github.io/projects/mowa/)で見ることができる。
関連論文リスト
- UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。
本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。
統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (2023-07-30T09:48:36Z) - Meta-training with Demonstration Retrieval for Efficient Few-shot
Learning [11.723856248352007]
大規模な言語モデルは、数ショットのNLPタスクで印象的な結果を示す。
これらのモデルはメモリと計算集約である。
本稿では,実演検索によるメタトレーニングを提案する。
論文 参考訳(メタデータ) (2023-06-30T20:16:22Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist
Models [72.8156832931841]
ジェネリストモデルは、単一のモデル内でタスクに依存しない方法で多様なマルチモーダルタスクを実行することができる。
マルチモーダル命令と呼ばれる宣言型タスクインタフェース上に構築された汎用モデル学習システムOFASysをリリースする。
論文 参考訳(メタデータ) (2022-12-08T17:07:09Z) - Multi-Modal Few-Shot Temporal Action Detection [157.96194484236483]
Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出を新しいクラスに拡張するための2つの異なるアプローチである。
我々は、FS-TADとZS-TADの結婚として考えられるMMFS (Multi-modality few-shot) TAD問題を導入する。
論文 参考訳(メタデータ) (2022-11-27T18:13:05Z) - Zero Experience Required: Plug & Play Modular Transfer Learning for
Semantic Visual Navigation [97.17517060585875]
新たなモジュール移動学習モデルを用いて視覚ナビゲーションに統一的な手法を提案する。
我々のモデルは、1つのソースタスクから経験を効果的に活用し、複数のターゲットタスクに適用することができる。
我々のアプローチはより速く学習し、より良く一般化し、大きなマージンでSoTAモデルを上回っます。
論文 参考訳(メタデータ) (2022-02-05T00:07:21Z) - Few-Shot Image Classification via Contrastive Self-Supervised Learning [5.878021051195956]
本稿では,欠陥を修復するための教師なし数発学習の新たなパラダイムを提案する。
我々は2つのフェーズでいくつかの課題を解決した: 対照的な自己教師付き学習を通して、伝達可能な特徴抽出器をメタトレーニングする。
本手法は,標準的な数ショットの視覚的分類データセット上で,多数の確立された数ショットタスクにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-08-23T02:24:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。