論文の概要: Unified-modal Salient Object Detection via Adaptive Prompt Learning
- arxiv url: http://arxiv.org/abs/2311.16835v1
- Date: Tue, 28 Nov 2023 14:51:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 18:05:15.282665
- Title: Unified-modal Salient Object Detection via Adaptive Prompt Learning
- Title(参考訳): アダプティブ・プロンプト学習による統一モーダルサルト物体検出
- Authors: Kunpeng Wang, Chenglong Li, Zhengzheng Tu, Bin Luo
- Abstract要約: 我々は、UniSODと呼ばれる統一フレームワークにおいて、シングルモーダルとマルチモーダルのSODに対処する最初の試みを行っている。
この目的のために、UniSODは適応的なプロンプト学習を通じてタスク固有のヒントでモダリティ認識プロンプトを学習する。
UniSODは、RGB、RGB-D、RGB-T SODの14のベンチマークデータセットで一貫したパフォーマンス改善を実現している。
- 参考スコア(独自算出の注目度): 18.090745205285543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing single-modal and multi-modal salient object detection (SOD) methods
focus on designing specific architectures tailored for their respective tasks.
However, developing completely different models for different tasks leads to
labor and time consumption, as well as high computational and practical
deployment costs. In this paper, we make the first attempt to address both
single-modal and multi-modal SOD in a unified framework called UniSOD.
Nevertheless, assigning appropriate strategies to modality variable inputs is
challenging. To this end, UniSOD learns modality-aware prompts with
task-specific hints through adaptive prompt learning, which are plugged into
the proposed pre-trained baseline SOD model to handle corresponding tasks,
while only requiring few learnable parameters compared to training the entire
model. Each modality-aware prompt is generated from a switchable prompt
generation block, which performs structural switching solely relied on
single-modal and multi-modal inputs. UniSOD achieves consistent performance
improvement on 14 benchmark datasets for RGB, RGB-D, and RGB-T SOD, which
demonstrates that our method effectively and efficiently unifies single-modal
and multi-modal SOD tasks.
- Abstract(参考訳): 既存のシングルモーダルおよびマルチモーダルサルトオブジェクト検出(SOD)手法は、それぞれのタスクに適した特定のアーキテクチャの設計に重点を置いている。
しかし、異なるタスクに対する全く異なるモデルの開発は、高い計算と実践的なデプロイメントコストだけでなく、労働と時間の消費につながる。
本稿では,unisodと呼ばれる統一フレームワークにおいて,シングルモーダルとマルチモーダルsodの両方に対応する最初の試みを行う。
それでも、モダリティ変数入力に適切な戦略を割り当てることは困難である。
この目的のために、UniSODは適応的なプロンプト学習を通じてタスク固有のヒントを学習し、提案したトレーニング済みベースラインSODモデルに接続して対応するタスクを処理する。
各モダリティ対応プロンプトは、シングルモーダルおよびマルチモーダル入力のみに依存する構造切替を行うスイッチ可能なプロンプト生成ブロックから生成される。
UniSODは、RGB、RGB-D、RGB-T SODの14のベンチマークデータセットに対して一貫した性能向上を実現し、本手法がシングルモーダルおよびマルチモーダルのSODタスクを効果的かつ効率的に統一することを示す。
関連論文リスト
- AdapMTL: Adaptive Pruning Framework for Multitask Learning Model [5.643658120200373]
AdapMTLはマルチタスクモデルのための適応型プルーニングフレームワークである。
複数のタスクにまたがって、空間割り当てと精度のパフォーマンスのバランスをとる。
最先端の刈り取り法に比べて優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-07T17:19:15Z) - All in One Framework for Multimodal Re-identification in the Wild [58.380708329455466]
オールインワン(AIO)という,ReID導入のためのマルチモーダル学習パラダイム
AIOは、凍結したトレーニング済みのビッグデータをエンコーダとして利用し、追加の微調整なしに効果的なマルチモーダル検索を可能にする。
クロスモーダルおよびマルチモーダルReIDの実験により、AIOは様々なモーダルデータを扱うだけでなく、困難な状況でも優れていることが明らかになった。
論文 参考訳(メタデータ) (2024-05-08T01:04:36Z) - Multi-modal Semantic Understanding with Contrastive Cross-modal Feature
Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。
我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文 参考訳(メタデータ) (2024-03-11T01:07:36Z) - Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [64.94129594112557]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。
従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。
本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
論文 参考訳(メタデータ) (2024-02-01T08:58:57Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist
Models [72.8156832931841]
ジェネリストモデルは、単一のモデル内でタスクに依存しない方法で多様なマルチモーダルタスクを実行することができる。
マルチモーダル命令と呼ばれる宣言型タスクインタフェース上に構築された汎用モデル学習システムOFASysをリリースする。
論文 参考訳(メタデータ) (2022-12-08T17:07:09Z) - Uni-Perceiver: Pre-training Unified Architecture for Generic Perception
for Zero-shot and Few-shot Tasks [73.63892022944198]
我々はUni-Perceiverという汎用認識アーキテクチャを提案する。
様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。
その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2021-12-02T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。