Fugu-MT 論文翻訳(概要): Continual Panoptic Perception: Towards Multi-modal Incremental Interpretation of Remote Sensing Images

論文の概要: Continual Panoptic Perception: Towards Multi-modal Incremental Interpretation of Remote Sensing Images

arxiv url: http://arxiv.org/abs/2407.14242v2
Date: Thu, 25 Jul 2024 13:30:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-26 18:18:09.023713
Title: Continual Panoptic Perception: Towards Multi-modal Incremental Interpretation of Remote Sensing Images
Title（参考訳）: 連続的パノプティカル知覚:リモートセンシング画像の多モードインクリメンタル解釈に向けて
Authors: Bo Yuan, Danpei Zhao, Zhuoran Liu, Wentao Li, Tian Li,
Abstract要約: 継続的学習(CL)は、一方的なトレーニングの方法を破壊し、モデルが新しいデータ、セマンティクス、タスクに継続的に適応できるようにする。本稿では,画素レベルの分類,インスタンスレベルのセグメンテーション,イメージレベルの知覚を対象とするマルチタスク共同学習を利用した統合型連続学習モデルを提案する。
参考スコア（独自算出の注目度）: 16.0258685984844
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Continual learning (CL) breaks off the one-way training manner and enables a model to adapt to new data, semantics and tasks continuously. However, current CL methods mainly focus on single tasks. Besides, CL models are plagued by catastrophic forgetting and semantic drift since the lack of old data, which often occurs in remote-sensing interpretation due to the intricate fine-grained semantics. In this paper, we propose Continual Panoptic Perception (CPP), a unified continual learning model that leverages multi-task joint learning covering pixel-level classification, instance-level segmentation and image-level perception for universal interpretation in remote sensing images. Concretely, we propose a collaborative cross-modal encoder (CCE) to extract the input image features, which supports pixel classification and caption generation synchronously. To inherit the knowledge from the old model without exemplar memory, we propose a task-interactive knowledge distillation (TKD) method, which leverages cross-modal optimization and task-asymmetric pseudo-labeling (TPL) to alleviate catastrophic forgetting. Furthermore, we also propose a joint optimization mechanism to achieve end-to-end multi-modal panoptic perception. Experimental results on the fine-grained panoptic perception dataset validate the effectiveness of the proposed model, and also prove that joint optimization can boost sub-task CL efficiency with over 13\% relative improvement on panoptic quality.
Abstract（参考訳）: 継続的学習(CL)は、一方的なトレーニングの方法を破壊し、モデルが新しいデータ、セマンティクス、タスクに継続的に適応できるようにする。しかし、現在のCLメソッドは主に単一タスクに焦点を当てている。さらに、CLモデルは、複雑な粒度のセマンティクスのためにしばしばリモートセンシングの解釈で起こる古いデータがないため、破滅的な忘れと意味の漂流に悩まされている。本稿では,画素レベルの分類,インスタンスレベルのセグメンテーション,画像レベルの認識を網羅したマルチタスク共同学習モデルであるContinuous Panoptic Perception (CPP)を提案する。具体的には、画素分類とキャプション生成を同期的にサポートする、入力画像の特徴を抽出するコラボレーティブなクロスモーダルエンコーダ(CCE)を提案する。メモリを使用せずに古いモデルから知識を継承するために,クロスモーダル最適化とタスク非対称な擬似ラベル(TPL)を利用したタスク対話型知識蒸留(TKD)手法を提案する。さらに,エンド・ツー・エンドのマルチモーダル・パノプティブ知覚を実現するための共同最適化機構を提案する。また,提案モデルの有効性を検証し,その精度を13%以上向上させることで,共同最適化によってサブタスクCLの効率が向上することが実証された。

関連論文リスト

Evolving Without Ending: Unifying Multimodal Incremental Learning for Continual Panoptic Perception [17.590466606165094]
連続学習(CL)は、インテリジェントな知覚AIシステムを開発するための大きな取り組みである。 CLを連続的汎視知覚(CPP)に拡張し,画素レベル,インスタンスレベル,画像レベルの共同解釈を通じて包括的イメージ知覚を高める。提案モデルには非対称な擬似ラベル方式が組み込まれており、模範的なリプレイを伴わずにモデルを進化させることができる。
論文参考訳（メタデータ） (2026-01-22T04:45:28Z)
Unleashing the Power of Vision-Language Models for Long-Tailed Multi-Label Visual Recognition [55.189113121465816]
本稿では,長い尾を持つ多ラベル視覚認識のための新しい相関適応プロンプトネットワーク(CAPNET)を提案する。 CAPNETはCLIPのテキストエンコーダからの相関を明示的にモデル化する。テスト時間アンサンブルによる一般化を改善し、視覚・テクスチャのモダリティを実現する。
論文参考訳（メタデータ） (2025-11-25T18:57:28Z)
A Contrastive Learning Foundation Model Based on Perfectly Aligned Sample Pairs for Remote Sensing Images [18.191222010916405]
セマンティック・パーフェクト・アライメント・サンプル・ペアによる全目的リモートセンシング機能を実現するPerAと呼ばれる新しい自己教師型手法を提案する。私たちのフレームワークは,教師と生徒の一貫性を確保することによって,高品質な機能を提供します。約500万のRS画像を含むラベル付き事前学習データセットを収集する。
論文参考訳（メタデータ） (2025-05-26T03:12:49Z)
Semi-supervised Semantic Segmentation with Multi-Constraint Consistency Learning [81.02648336552421]
本稿では,エンコーダとデコーダの段階的拡張を容易にするためのマルチ制約一貫性学習手法を提案する。自己適応型特徴マスキングとノイズ注入は、デコーダの堅牢な学習のための特徴を摂動させるために、インスタンス固有の方法で設計されている。 Pascal VOC2012およびCityscapesデータセットの実験結果から,提案したMCCLが新たな最先端性能を実現することを示す。
論文参考訳（メタデータ） (2025-03-23T03:21:33Z)
IPSeg: Image Posterior Mitigates Semantic Drift in Class-Incremental Segmentation [77.06177202334398]
CISSにおけるセマンティックドリフトとデグレード性能に寄与する2つの重要な課題を特定した。まず、モデルの異なる部分が異なる漸進的な段階に最適化されるという、別々の最適化の問題を強調します。第二に、不適切な擬似ラベルから生じる雑音のセマンティクスを同定し、その結果、準最適結果が得られる。
論文参考訳（メタデータ） (2025-02-07T12:19:37Z)
Semi-supervised Semantic Segmentation for Remote Sensing Images via Multi-scale Uncertainty Consistency and Cross-Teacher-Student Attention [59.19580789952102]
本稿では,RS画像セマンティックセグメンテーションタスクのための,新しい半教師付きマルチスケール不確かさとクロスTeacher-Student Attention(MUCA)モデルを提案する。 MUCAは、マルチスケールの不確実性整合正則化を導入することにより、ネットワークの異なる層における特徴写像間の整合性を制限する。 MUCAは学生ネットワークの誘導にクロス教師・学生の注意機構を使用し、学生ネットワークにより差別的な特徴表現を構築するよう誘導する。
論文参考訳（メタデータ） (2025-01-18T11:57:20Z)
MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。 MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文参考訳（メタデータ） (2024-10-14T17:57:18Z)
Dual-Image Enhanced CLIP for Zero-Shot Anomaly Detection [58.228940066769596]
本稿では,統合視覚言語スコアリングシステムを活用したデュアルイメージ強化CLIP手法を提案する。提案手法は,画像のペアを処理し,それぞれを視覚的参照として利用することにより,視覚的コンテキストによる推論プロセスを強化する。提案手法は視覚言語による関節異常検出の可能性を大幅に活用し,従来のSOTA法と同等の性能を示す。
論文参考訳（メタデータ） (2024-05-08T03:13:20Z)
Enhancing Few-shot CLIP with Semantic-Aware Fine-Tuning [61.902254546858465]
Contrastive Language-Image Pre-Trainingに基づく手法は、数発の適応タスクで有望な性能を示した。本稿では,タスク固有のセマンティクスに焦点を合わせるために,トレーニングプロセス中にアテンションプーリング層のパラメータを微調整することを提案する。
論文参考訳（メタデータ） (2023-11-08T05:18:57Z)
CM-MaskSD: Cross-Modality Masked Self-Distillation for Referring Image Segmentation [29.885991324519463]
本稿では,CM-MaskSD という新しいクロスモーダルマスク型自己蒸留フレームワークを提案する。提案手法は,CLIPモデルから画像テキストセマンティックアライメントの伝達知識を継承し,きめ細かいパッチワード特徴アライメントを実現する。我々のフレームワークはパラメータフリーに近い方法でモデル性能を大幅に向上させることができる。
論文参考訳（メタデータ） (2023-05-19T07:17:27Z)
Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文参考訳（メタデータ） (2022-06-30T18:31:51Z)
Robust Cross-Modal Representation Learning with Progressive Self-Distillation [7.676408770854477]
CLIPの視覚言語アプローチの学習目的は、Webハーベスト画像キャプションデータセットに見られるノイズの多い多対多対応を効果的に考慮していない。本研究では、進行的な自己蒸留とソフトな画像テキストアライメントを用いて、雑音の多いデータから頑健な表現をより効率的に学習するクロスモーダルコントラスト学習に基づく新しいトレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2022-04-10T03:28:18Z)
Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文参考訳（メタデータ） (2021-09-24T07:20:13Z)
Weakly supervised segmentation with cross-modality equivariant constraints [7.757293476741071]
弱い教師付き学習は、セマンティックセグメンテーションにおける大きなラベル付きデータセットの必要性を軽減するための魅力的な代替手段として登場した。本稿では,マルチモーダル画像シナリオにおける自己スーパービジョンを活用した新しい学習戦略を提案する。私たちのアプローチは、同じ学習条件下で関連する最近の文学を上回ります。
論文参考訳（メタデータ） (2021-04-06T13:14:20Z)
Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation [93.83369981759996]
本稿では,自己監督同変注意機構(SEAM)を提案する。本手法は,完全教師付きセマンティックセグメンテーションにおいて,同値が暗黙の制約であることを示す。本稿では,ネットワーク学習のための自己スーパービジョンを提供するために,様々な変換画像から予測されたCAMの整合性正則化を提案する。
論文参考訳（メタデータ） (2020-04-09T14:57:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。