論文の概要: Unified-modal Salient Object Detection via Adaptive Prompt Learning
- arxiv url: http://arxiv.org/abs/2311.16835v3
- Date: Fri, 15 Dec 2023 12:19:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 18:37:43.183565
- Title: Unified-modal Salient Object Detection via Adaptive Prompt Learning
- Title(参考訳): アダプティブ・プロンプト学習による統一モーダルサルト物体検出
- Authors: Kunpeng Wang, Chenglong Li, Zhengzheng Tu, Bin Luo
- Abstract要約: 我々は、UniSODと呼ばれる統一フレームワークにおいて、シングルモーダルとマルチモーダルのSODに対処する最初の試みを行っている。
この目的のために、UniSODは適応的なプロンプト学習を通じてタスク固有のヒントでモダリティ認識プロンプトを学習する。
UniSODは、RGB、RGB-D、RGB-T SODの14のベンチマークデータセットで一貫したパフォーマンス改善を実現している。
- 参考スコア(独自算出の注目度): 18.090745205285543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing single-modal and multi-modal salient object detection (SOD) methods
focus on designing specific architectures tailored for their respective tasks.
However, developing completely different models for different tasks leads to
labor and time consumption, as well as high computational and practical
deployment costs. In this paper, we make the first attempt to address both
single-modal and multi-modal SOD in a unified framework called UniSOD.
Nevertheless, assigning appropriate strategies to modality variable inputs is
challenging. To this end, UniSOD learns modality-aware prompts with
task-specific hints through adaptive prompt learning, which are plugged into
the proposed pre-trained baseline SOD model to handle corresponding tasks,
while only requiring few learnable parameters compared to training the entire
model. Each modality-aware prompt is generated from a switchable prompt
generation block, which performs structural switching solely relied on
single-modal and multi-modal inputs. UniSOD achieves consistent performance
improvement on 14 benchmark datasets for RGB, RGB-D, and RGB-T SOD, which
demonstrates that our method effectively and efficiently unifies single-modal
and multi-modal SOD tasks.
- Abstract(参考訳): 既存のシングルモーダルおよびマルチモーダルサルトオブジェクト検出(SOD)手法は、それぞれのタスクに適した特定のアーキテクチャの設計に重点を置いている。
しかし、異なるタスクに対する全く異なるモデルの開発は、高い計算と実践的なデプロイメントコストだけでなく、労働と時間の消費につながる。
本稿では,unisodと呼ばれる統一フレームワークにおいて,シングルモーダルとマルチモーダルsodの両方に対応する最初の試みを行う。
それでも、モダリティ変数入力に適切な戦略を割り当てることは困難である。
この目的のために、UniSODは適応的なプロンプト学習を通じてタスク固有のヒントを学習し、提案したトレーニング済みベースラインSODモデルに接続して対応するタスクを処理する。
各モダリティ対応プロンプトは、シングルモーダルおよびマルチモーダル入力のみに依存する構造切替を行うスイッチ可能なプロンプト生成ブロックから生成される。
UniSODは、RGB、RGB-D、RGB-T SODの14のベンチマークデータセットに対して一貫した性能向上を実現し、本手法がシングルモーダルおよびマルチモーダルのSODタスクを効果的かつ効率的に統一することを示す。
関連論文リスト
- Multi-modal Semantic Understanding with Contrastive Cross-modal Feature
Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。
我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文 参考訳(メタデータ) (2024-03-11T01:07:36Z) - Multimodal Instruction Tuning with Conditional Mixture of LoRA [54.65520214291653]
本稿では,Low-Rank Adaption (LoRA) とマルチモーダル命令チューニングを統合した新しい手法を提案する。
各入力インスタンスのユニークな要求に合わせた低ランク適応行列を動的に構築することで、LoRAを革新する。
様々なマルチモーダル評価データセットの実験結果から、MixLoRAは従来のLoRAを同等以上のランクで上回るだけでなく、性能も向上していることが示された。
論文 参考訳(メタデータ) (2024-02-24T20:15:31Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Towards Robust Multi-Modal Reasoning via Model Selection [8.37038849337004]
LLMはエージェントの"脳"として機能し、協調的な多段階タスク解決のための複数のツールを編成する。
我々はテスト時に無視できるランタイムオーバーヘッドを持つプラグインとして、$textitM3$フレームワークを提案する。
実験の結果,我々のフレームワークは,ユーザ入力とサブタスク依存の両方を考慮した動的モデル選択を可能にすることがわかった。
論文 参考訳(メタデータ) (2023-10-12T16:06:18Z) - OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist
Models [72.8156832931841]
ジェネリストモデルは、単一のモデル内でタスクに依存しない方法で多様なマルチモーダルタスクを実行することができる。
マルチモーダル命令と呼ばれる宣言型タスクインタフェース上に構築された汎用モデル学習システムOFASysをリリースする。
論文 参考訳(メタデータ) (2022-12-08T17:07:09Z) - Instance-wise Prompt Tuning for Pretrained Language Models [72.74916121511662]
インスタンスワイドのPrompt Tuning(IPT)は、入力データインスタンスからプロンプトに知識を注入する最初のプロンプト学習パラダイムである。
IPTはタスクベースのプロンプト学習法を著しく上回り、調律パラメータのわずか0.5%から1.5%で従来の微調整に匹敵する性能を達成している。
論文 参考訳(メタデータ) (2022-06-04T10:08:50Z) - Uni-Perceiver: Pre-training Unified Architecture for Generic Perception
for Zero-shot and Few-shot Tasks [73.63892022944198]
我々はUni-Perceiverという汎用認識アーキテクチャを提案する。
様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。
その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2021-12-02T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。