Fugu-MT 論文翻訳(概要): Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting

論文の概要: Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting

arxiv url: http://arxiv.org/abs/2406.19796v1
Date: Fri, 28 Jun 2024 10:05:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-01 17:10:02.988589
Title: Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting
Title（参考訳）: 同時出現と意味形成を伴うタスクインクリメンタルセグメンテーションのための総合的生成リプレイ
Authors: Wei Li, Jingyang Zhang, Pheng-Ann Heng, Lixu Gu,
Abstract要約: 一般的なセグメンテーションモデルは、異なる画像ソースからの様々なオブジェクトを含む様々なタスクに対して、ますます好まれている。画像とマスクのペアを合成することで外観と意味の知識を復元する包括的生成(CGR)フレームワークを提案する。漸進的タスク(心身、基礎、前立腺のセグメンテーション)の実験は、同時出現と意味的忘れを緩和する上で、明らかな優位性を示している。
参考スコア（独自算出の注目度）: 49.87694319431288
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generalist segmentation models are increasingly favored for diverse tasks involving various objects from different image sources. Task-Incremental Learning (TIL) offers a privacy-preserving training paradigm using tasks arriving sequentially, instead of gathering them due to strict data sharing policies. However, the task evolution can span a wide scope that involves shifts in both image appearance and segmentation semantics with intricate correlation, causing concurrent appearance and semantic forgetting. To solve this issue, we propose a Comprehensive Generative Replay (CGR) framework that restores appearance and semantic knowledge by synthesizing image-mask pairs to mimic past task data, which focuses on two aspects: modeling image-mask correspondence and promoting scalability for diverse tasks. Specifically, we introduce a novel Bayesian Joint Diffusion (BJD) model for high-quality synthesis of image-mask pairs with their correspondence explicitly preserved by conditional denoising. Furthermore, we develop a Task-Oriented Adapter (TOA) that recalibrates prompt embeddings to modulate the diffusion model, making the data synthesis compatible with different tasks. Experiments on incremental tasks (cardiac, fundus and prostate segmentation) show its clear advantage for alleviating concurrent appearance and semantic forgetting. Code is available at https://github.com/jingyzhang/CGR.
Abstract（参考訳）: 一般的なセグメンテーションモデルは、異なる画像ソースからの様々なオブジェクトを含む様々なタスクに対して、ますます好まれている。 Task-Incremental Learning (TIL)は、厳格なデータ共有ポリシのためにタスクを収集するのではなく、シーケンシャルに到着するタスクを使用したプライバシ保護トレーニングパラダイムを提供する。しかし、タスクの進化は、画像の外観とセグメンテーションのセグメンテーションのセグメンテーションを、複雑な相関でシフトさせ、同時に外観とセグメンテーションを忘れてしまう幅広い範囲にまたがる可能性がある。この問題を解決するために,過去のタスクデータを模倣するためにイメージマスクペアを合成し,外観と意味の知識を復元する包括的生成再生(CGR)フレームワークを提案する。具体的には,画像マスク対の高次合成のための新しいベイズ連成拡散(BJD)モデルを提案する。さらに,データ合成を異なるタスクと互換性を持たせるために,拡散モデルを調整するために,プロンプト埋め込みを再検討するタスク指向適応器 (TOA) を開発した。漸進的タスク(心身、基礎、前立腺のセグメンテーション)の実験は、同時出現と意味的忘れを緩和する上で、明らかな優位性を示している。コードはhttps://github.com/jingyzhang/CGRで公開されている。

関連論文リスト

Crab$^{+}$: A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation [83.75249714794977]
我々は、スケーラブルで統一されたオーディオ視覚シーン理解モデルであるCrab$+$を提示する。データ側では、AV-UIE v2(Audio-Visual Unified Instruction-tuning データセット)を導入します。モデル側では、異種タスクの定式化を整合させる統一インターフェースを設計する。タスクの88%近くにおいて、マルチタスク学習がシングルタスクベースラインを超えた場合、負の転送傾向を逆転させ、正の転送を実現した。
論文参考訳（メタデータ） (2026-03-04T14:43:57Z)
CtrlFuse: Mask-Prompt Guided Controllable Infrared and Visible Image Fusion [51.060328159429154]
赤外線と可視画像の融合は、相補的なモダリティを組み合わせることで、全天候の知覚可能な画像を生成する。我々は,マスクプロンプトによって誘導されるインタラクティブな動的融合を可能にする,制御可能な画像融合フレームワークであるCtrlFuseを提案する。実験では、融合制御性とセグメンテーション精度の両立を実証し、適応されたタスク分岐は元のセグメンテーションモデルよりも優れていた。
論文参考訳（メタデータ） (2026-01-12T13:36:48Z)
Task-Adapter++: Task-specific Adaptation with Order-aware Alignment for Few-shot Action Recognition [33.22316608406554]
本稿では,画像エンコーダとテキストエンコーダのパラメータ効率を両立させる手法を提案する。具体的には,画像エンコーダのタスク固有の適応を設計し,特徴抽出時に最も識別性の高い情報をよく認識できるようにする。我々は,視覚的特徴を意味的記述と同じ時間的段階に存在するように積極的にマッピングする,革新的な細粒度クロスモーダルアライメント戦略を開発した。
論文参考訳（メタデータ） (2025-05-09T12:34:10Z)
Balancing Task-invariant Interaction and Task-specific Adaptation for Unified Image Fusion [82.74585945197231]
統合画像融合は、マルチソース画像からの補完情報を統合し、画質を向上させることを目的としている。既存の一般画像融合法では、異なる融合タスクへの適応を可能にする明示的なタスク識別が組み込まれている。本稿では,タスク不変相互作用とタスク固有適応のバランスをとる,新たな統合画像融合フレームワーク「TITA」を提案する。
論文参考訳（メタデータ） (2025-04-07T15:08:35Z)
Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。 HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文参考訳（メタデータ） (2025-03-27T20:50:38Z)
SpecDM: Hyperspectral Dataset Synthesis with Pixel-level Semantic Annotations [27.391859339238906]
本稿では,画素レベルのアノテーションを用いたハイパースペクトル画像の合成における生成拡散モデルの可能性について検討する。私たちの知る限りでは、アノテーションで高次元のHSIを生成するのはこれが初めてです。我々は、セマンティックセグメンテーションと変化検出の2つの最も広く使われている密集予測タスクを選択し、これらのタスクに適したデータセットを生成する。
論文参考訳（メタデータ） (2025-02-24T11:13:37Z)
One Diffusion to Generate Them All [54.82732533013014]
OneDiffusionは双方向画像合成と理解をサポートする汎用的で大規模な拡散モデルである。テキスト、深さ、ポーズ、レイアウト、セマンティックマップなどの入力から条件生成を可能にする。 OneDiffusionは、シーケンシャルな画像入力を使用して、マルチビュー生成、カメラポーズ推定、即時パーソナライズを可能にする。
論文参考訳（メタデータ） (2024-11-25T12:11:05Z)
Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。 DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文参考訳（メタデータ） (2023-12-20T09:39:19Z)
ComPtr: Towards Diverse Bi-source Dense Prediction Tasks via A Simple yet General Complementary Transformer [91.43066633305662]
本稿では,多種多様な二ソース密度予測タスクのためのアンダーラインComPlementaryアンダーライン変換器textbfComPtrを提案する。 ComPtrは異なる入力を等しく扱い、変換器上にシーケンス・ツー・シーケンスの形で効率的な密な相互作用モデルを構築する。
論文参考訳（メタデータ） (2023-07-23T15:17:45Z)
Source Identification: A Self-Supervision Task for Dense Prediction [8.744460886823322]
我々は、ソース識別(SI)と呼ばれる新しいセルフスーパービジョンタスクを提案する。合成画像は、複数のソースイメージを融合させて生成され、融合された画像を考えると、ネットワークのタスクは元のイメージを再構築することである。脳腫瘍分節と白質高強度分節という2つの医療画像分節課題に対して,本手法の有効性を検証した。
論文参考訳（メタデータ） (2023-07-05T12:27:58Z)
Exposing and Addressing Cross-Task Inconsistency in Unified Vision-Language Models [80.23791222509644]
一貫性のないAIモデルは、人間のユーザーによって不安定で信頼できないと見なされている。最先端のビジョン言語モデルは、タスク間の驚くほど高い一貫性のない振る舞いに悩まされている。本稿では,大規模で自動生成されるクロスタスクコントラスト集合上で計算されたランク相関に基づく補助訓練目標を提案する。
論文参考訳（メタデータ） (2023-03-28T16:57:12Z)
Semantics-Depth-Symbiosis: Deeply Coupled Semi-Supervised Learning of Semantics and Depth [83.94528876742096]
我々は,意味的セグメンテーションと深さ推定という2つの密なタスクのMTL問題に取り組み,クロスチャネル注意モジュール(CCAM)と呼ばれる新しいアテンションモジュールを提案する。次に,AffineMixと呼ばれる予測深度を用いた意味分節タスクのための新しいデータ拡張と,ColorAugと呼ばれる予測セマンティクスを用いた単純な深度増分を定式化する。最後に,提案手法の性能向上をCityscapesデータセットで検証し,深度と意味に基づく半教師付きジョイントモデルにおける最先端結果の実現を支援する。
論文参考訳（メタデータ） (2022-06-21T17:40:55Z)
Decoupled Multi-task Learning with Cyclical Self-Regulation for Face Parsing [71.19528222206088]
顔解析のための周期的自己統制型デカップリング型マルチタスク学習を提案する。具体的には、DML-CSRは、顔解析、バイナリエッジ、カテゴリエッジ検出を含むマルチタスクモデルを設計する。提案手法は,Helen,CelebA-HQ,LapaMaskのデータセット上での最先端性能を実現する。
論文参考訳（メタデータ） (2022-03-28T02:12:30Z)
Dependent Multi-Task Learning with Causal Intervention for Image Captioning [10.6405791176668]
本稿では、因果的介入(DMTCI)を伴う依存型マルチタスク学習フレームワークを提案する。まず、中間タスク、カテゴリの袋生成、最終タスクの前に、画像キャプションを伴います。次に、pearlのdo-calculusをモデルに適用し、視覚的特徴と共同設立者のつながりを取り除きます。最後に,エンド・ツー・エンドのトレーニングを可能にし,タスク間エラーの蓄積を低減するために,マルチエージェント強化学習戦略を用いる。
論文参考訳（メタデータ） (2021-05-18T14:57:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。