論文の概要: Spider: A Unified Framework for Context-dependent Concept Segmentation
- arxiv url: http://arxiv.org/abs/2405.01002v2
- Date: Tue, 28 May 2024 04:09:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 00:39:49.528008
- Title: Spider: A Unified Framework for Context-dependent Concept Segmentation
- Title(参考訳): Spider: コンテキスト依存の概念セグメンテーションのための統一フレームワーク
- Authors: Xiaoqi Zhao, Youwei Pang, Wei Ji, Baicheng Sheng, Jiaming Zuo, Lihe Zhang, Huchuan Lu,
- Abstract要約: パラメータセット1セットの統一モデルであるSpiderを提案する。
ベルとホイッスルがなければ、スパイダーは8つの異なる文脈依存セグメンテーションタスクにおいて最先端の特殊モデルよりも大幅に優れる。
- 参考スコア(独自算出の注目度): 64.02893431189659
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Different from the context-independent (CI) concepts such as human, car, and airplane, context-dependent (CD) concepts require higher visual understanding ability, such as camouflaged object and medical lesion. Despite the rapid advance of many CD understanding tasks in respective branches, the isolated evolution leads to their limited cross-domain generalisation and repetitive technique innovation. Since there is a strong coupling relationship between foreground and background context in CD tasks, existing methods require to train separate models in their focused domains. This restricts their real-world CD concept understanding towards artificial general intelligence (AGI). We propose a unified model with a single set of parameters, Spider, which only needs to be trained once. With the help of the proposed concept filter driven by the image-mask group prompt, Spider is able to understand and distinguish diverse strong context-dependent concepts to accurately capture the Prompter's intention. Without bells and whistles, Spider significantly outperforms the state-of-the-art specialized models in 8 different context-dependent segmentation tasks, including 4 natural scenes (salient, camouflaged, and transparent objects and shadow) and 4 medical lesions (COVID-19, polyp, breast, and skin lesion with color colonoscopy, CT, ultrasound, and dermoscopy modalities). Besides, Spider shows obvious advantages in continuous learning. It can easily complete the training of new tasks by fine-tuning parameters less than 1\% and bring a tolerable performance degradation of less than 5\% for all old tasks. The source code will be publicly available at \href{https://github.com/Xiaoqi-Zhao-DLUT/Spider-UniCDSeg}{Spider-UniCDSeg}.
- Abstract(参考訳): 人間、車、飛行機のような文脈に依存しない(CI)概念とは異なり、文脈に依存しない(CD)概念は、偽装された物体や医学的病変のような高い視覚的理解能力を必要とする。
多くのCD理解タスクが各ブランチで急速に進歩したにもかかわらず、分離された進化はドメイン間の一般化と反復的な技術革新に繋がる。
CDタスクには前景と背景のコンテキストの間に強い結合関係があるため、既存の手法では焦点を絞った領域で個別のモデルを訓練する必要がある。
これは、人工知能(AGI)に対する現実のCD概念の理解を制限する。
パラメータセット1セットの統一モデルであるSpiderを提案する。
イメージマスクグループプロンプトによって駆動される提案されたコンセプトフィルタの助けを借りて、スパイダーはプロンプターの意図を正確に捉えるために、多様なコンテキスト依存の概念を理解し、区別することができる。
ベルとホイッスルがなければ、スパイダーは8つの異なるコンテキスト依存のセグメンテーションタスクにおいて最先端の特殊モデルよりも優れており、その中には4つの自然なシーン(塩分、カモフラージュ、透明な物体と影)と4つの医学的病変(COVID-19、ポリプ、乳房、皮膚病変、大腸内視鏡、CT、超音波、皮膚内視鏡のモダリティ)が含まれる。
さらに、スパイダーは継続的学習における明らかなアドバンテージを示している。
パラメータを1\%未満に微調整することで、新しいタスクのトレーニングを簡単に完了し、古いタスクすべてに対して許容可能なパフォーマンス劣化を5\%以下にする。
ソースコードは \href{https://github.com/Xiaoqi-Zhao-DLUT/Spider-UniCDSeg}{Spider-UniCDSeg} で公開されている。
関連論文リスト
- Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting [49.87694319431288]
一般的なセグメンテーションモデルは、異なる画像ソースからの様々なオブジェクトを含む様々なタスクに対して、ますます好まれている。
画像とマスクのペアを合成することで外観と意味の知識を復元する包括的生成(CGR)フレームワークを提案する。
漸進的タスク(心身、基礎、前立腺のセグメンテーション)の実験は、同時出現と意味的忘れを緩和する上で、明らかな優位性を示している。
論文 参考訳(メタデータ) (2024-06-28T10:05:58Z) - Finding Shared Decodable Concepts and their Negations in the Brain [4.111712524255376]
我々は、自然視画像観察中に脳の反応をCLIP埋め込みにマッピングする非常に正確なコントラストモデルを訓練する。
次に、DBSCANクラスタリングアルゴリズムの新たな適応を用いて、参加者固有のコントラストモデルパラメータをクラスタリングする。
各SDCクラスタに最も多く,最も関連付けられていない画像を調べることで,各SDCのセマンティック特性についてさらなる知見が得られる。
論文 参考訳(メタデータ) (2024-05-27T21:28:26Z) - Design as Desired: Utilizing Visual Question Answering for Multimodal Pre-training [11.129868018236445]
VQA(Visual Question Answering)をマルチモーダル・プレトレーニングに利用して,対象とする病態の特徴に着目したフレームワークのガイドを行う。
また,視覚的特徴をテキスト領域に近い準テキスト空間に変換するためのモジュールである準テキスト特徴変換器を用いた新しい事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-30T02:56:54Z) - CAPro: Webly Supervised Learning with Cross-Modality Aligned Prototypes [93.71909293023663]
クロスモダリティ・アライテッド・プロトタイプ(CAPro)は、視覚表現を正しい意味論で学習する統合コントラスト学習フレームワークである。
CAProは、新しい最先端のパフォーマンスを実現し、オープンセット認識に対する堅牢性を示す。
論文 参考訳(メタデータ) (2023-10-15T07:20:22Z) - ComPtr: Towards Diverse Bi-source Dense Prediction Tasks via A Simple
yet General Complementary Transformer [91.43066633305662]
本稿では,多種多様な二ソース密度予測タスクのためのアンダーラインComPlementaryアンダーライン変換器textbfComPtrを提案する。
ComPtrは異なる入力を等しく扱い、変換器上にシーケンス・ツー・シーケンスの形で効率的な密な相互作用モデルを構築する。
論文 参考訳(メタデータ) (2023-07-23T15:17:45Z) - Source Identification: A Self-Supervision Task for Dense Prediction [8.744460886823322]
我々は、ソース識別(SI)と呼ばれる新しいセルフスーパービジョンタスクを提案する。
合成画像は、複数のソースイメージを融合させて生成され、融合された画像を考えると、ネットワークのタスクは元のイメージを再構築することである。
脳腫瘍分節と白質高強度分節という2つの医療画像分節課題に対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-07-05T12:27:58Z) - Multi-task Collaborative Pre-training and Individual-adaptive-tokens
Fine-tuning: A Unified Framework for Brain Representation Learning [3.1453938549636185]
協調的事前学習と個別学習を組み合わせた統合フレームワークを提案する。
提案したMCIATはADHD-200データセット上で最先端の診断性能を実現する。
論文 参考訳(メタデータ) (2023-06-20T08:38:17Z) - Visual Attention Network [90.0753726786985]
本稿では,自己アテンションにおける自己適応性および長距離相関を実現するために,新しいカーネルアテンション(LKA)モジュールを提案する。
また、LKAに基づく新しいニューラルネットワーク、すなわちVisual Attention Network (VAN)を導入する。
VANは、最先端のビジョントランスフォーマーと畳み込みニューラルネットワークを、広範な実験において大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-02-20T06:35:18Z) - Fully Context-Aware Image Inpainting with a Learned Semantic Pyramid [102.24539566851809]
画像中の任意の欠落する領域に対して、合理的で現実的なコンテンツを復元することは、重要な課題である。
最近の画像インパインティングモデルは鮮明な視覚的詳細を生成するために大きな進歩を遂げているが、それでもテクスチャのぼやけや構造的歪みにつながる可能性がある。
本研究では,画像中の局所的欠落コンテンツの回復に大きく貢献する,多スケールなセマンティック・セマンティック・ピラミッド・ネットワーク(SPN)を提案する。
論文 参考訳(メタデータ) (2021-12-08T04:33:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。