Fugu-MT 論文翻訳(概要): Unified-modal Salient Object Detection via Adaptive Prompt Learning

論文の概要: Unified-modal Salient Object Detection via Adaptive Prompt Learning

arxiv url: http://arxiv.org/abs/2311.16835v3
Date: Fri, 15 Dec 2023 12:19:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-18 18:37:43.183565
Title: Unified-modal Salient Object Detection via Adaptive Prompt Learning
Title（参考訳）: アダプティブ・プロンプト学習による統一モーダルサルト物体検出
Authors: Kunpeng Wang, Chenglong Li, Zhengzheng Tu, Bin Luo
Abstract要約: 我々は、UniSODと呼ばれる統一フレームワークにおいて、シングルモーダルとマルチモーダルのSODに対処する最初の試みを行っている。この目的のために、UniSODは適応的なプロンプト学習を通じてタスク固有のヒントでモダリティ認識プロンプトを学習する。 UniSODは、RGB、RGB-D、RGB-T SODの14のベンチマークデータセットで一貫したパフォーマンス改善を実現している。
参考スコア（独自算出の注目度）: 18.090745205285543
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing single-modal and multi-modal salient object detection (SOD) methods focus on designing specific architectures tailored for their respective tasks. However, developing completely different models for different tasks leads to labor and time consumption, as well as high computational and practical deployment costs. In this paper, we make the first attempt to address both single-modal and multi-modal SOD in a unified framework called UniSOD. Nevertheless, assigning appropriate strategies to modality variable inputs is challenging. To this end, UniSOD learns modality-aware prompts with task-specific hints through adaptive prompt learning, which are plugged into the proposed pre-trained baseline SOD model to handle corresponding tasks, while only requiring few learnable parameters compared to training the entire model. Each modality-aware prompt is generated from a switchable prompt generation block, which performs structural switching solely relied on single-modal and multi-modal inputs. UniSOD achieves consistent performance improvement on 14 benchmark datasets for RGB, RGB-D, and RGB-T SOD, which demonstrates that our method effectively and efficiently unifies single-modal and multi-modal SOD tasks.
Abstract（参考訳）: 既存のシングルモーダルおよびマルチモーダルサルトオブジェクト検出(SOD)手法は、それぞれのタスクに適した特定のアーキテクチャの設計に重点を置いている。しかし、異なるタスクに対する全く異なるモデルの開発は、高い計算と実践的なデプロイメントコストだけでなく、労働と時間の消費につながる。本稿では,unisodと呼ばれる統一フレームワークにおいて,シングルモーダルとマルチモーダルsodの両方に対応する最初の試みを行う。それでも、モダリティ変数入力に適切な戦略を割り当てることは困難である。この目的のために、UniSODは適応的なプロンプト学習を通じてタスク固有のヒントを学習し、提案したトレーニング済みベースラインSODモデルに接続して対応するタスクを処理する。各モダリティ対応プロンプトは、シングルモーダルおよびマルチモーダル入力のみに依存する構造切替を行うスイッチ可能なプロンプト生成ブロックから生成される。 UniSODは、RGB、RGB-D、RGB-T SODの14のベンチマークデータセットに対して一貫した性能向上を実現し、本手法がシングルモーダルおよびマルチモーダルのSODタスクを効果的かつ効率的に統一することを示す。

関連論文リスト

From Sparse Decisions to Dense Reasoning: A Multi-attribute Trajectory Paradigm for Multimodal Moderation [59.27094165576015]
疎度な意思決定から高密度な推論トレースへ移行する新しい学習パラダイム(UniMod)を提案する。モノリシックな意思決定タスクを多次元境界学習プロセスに再構成し,エビデンス,モダリティ評価,リスクマッピング,政策決定,応答生成を含む構造化軌道を構築する。タスク固有のパラメータを分離し、トレーニングダイナミクスを再バランスさせ、マルチタスク学習における多様な目的間の干渉を効果的に解消する、特別な最適化戦略を導入する。
論文参考訳（メタデータ） (2026-01-28T09:29:40Z)
Towards Agentic AI for Multimodal-Guided Video Object Segmentation [14.877182670778284]
参照ベースのビデオオブジェクトは、外部キューでガイドされたきめ細かいセグメンテーション結果を生成する必要のあるマルチモーダル問題である。ビジョン言語基礎モデルの最近の進歩は、トレーニングフリーアプローチへの有望な方向性を開いている。本稿では,この課題を柔軟かつ適応的に解決する新しいエージェントシステムであるMulti-Modal Agentを提案する。
論文参考訳（メタデータ） (2025-08-14T12:11:15Z)
M3Net: Multimodal Multi-task Learning for 3D Detection, Segmentation, and Occupancy Prediction in Autonomous Driving [48.17490295484055]
M3Netは、自動運転の検知、セグメンテーション、および3D占有率予測に同時に取り組む新しいネットワークである。 M3NetはnuScenesベンチマークで最先端のマルチタスク学習性能を達成する。
論文参考訳（メタデータ） (2025-03-23T15:08:09Z)
SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文参考訳（メタデータ） (2024-12-30T02:47:51Z)
AdapMTL: Adaptive Pruning Framework for Multitask Learning Model [5.643658120200373]
AdapMTLはマルチタスクモデルのための適応型プルーニングフレームワークである。複数のタスクにまたがって、空間割り当てと精度のパフォーマンスのバランスをとる。最先端の刈り取り法に比べて優れた性能を示す。
論文参考訳（メタデータ） (2024-08-07T17:19:15Z)
One Framework to Rule Them All: Unifying Multimodal Tasks with LLM Neural-Tuning [16.96824902454355]
複数のタスクやモダリティを同時に処理する統合フレームワークを提案する。このフレームワークでは、すべてのモダリティとタスクは統一トークンとして表現され、単一の一貫したアプローチでトレーニングされる。複数のタスクラベルを付加したサンプルを含む新しいベンチマークMMUDを提案する。複数のタスクを合理化して効率的に同時に処理できることを実証する。
論文参考訳（メタデータ） (2024-08-06T07:19:51Z)
All in One Framework for Multimodal Re-identification in the Wild [58.380708329455466]
オールインワン(AIO)という,ReID導入のためのマルチモーダル学習パラダイム AIOは、凍結したトレーニング済みのビッグデータをエンコーダとして利用し、追加の微調整なしに効果的なマルチモーダル検索を可能にする。クロスモーダルおよびマルチモーダルReIDの実験により、AIOは様々なモーダルデータを扱うだけでなく、困難な状況でも優れていることが明らかになった。
論文参考訳（メタデータ） (2024-05-08T01:04:36Z)
Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文参考訳（メタデータ） (2024-03-11T01:07:36Z)
Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [64.94129594112557]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
論文参考訳（メタデータ） (2024-02-01T08:58:57Z)
Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。 TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文参考訳（メタデータ） (2023-11-23T15:46:54Z)
Unified Multi-modal Unsupervised Representation Learning for Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。 UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文参考訳（メタデータ） (2023-11-06T13:56:57Z)
OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist Models [72.8156832931841]
ジェネリストモデルは、単一のモデル内でタスクに依存しない方法で多様なマルチモーダルタスクを実行することができる。マルチモーダル命令と呼ばれる宣言型タスクインタフェース上に構築された汎用モデル学習システムOFASysをリリースする。
論文参考訳（メタデータ） (2022-12-08T17:07:09Z)
Uni-Perceiver: Pre-training Unified Architecture for Generic Perception for Zero-shot and Few-shot Tasks [73.63892022944198]
我々はUni-Perceiverという汎用認識アーキテクチャを提案する。様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
論文参考訳（メタデータ） (2021-12-02T18:59:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。