Fugu-MT 論文翻訳(概要): Advanced Feature Manipulation for Enhanced Change Detection Leveraging Natural Language Models

論文の概要: Advanced Feature Manipulation for Enhanced Change Detection Leveraging Natural Language Models

arxiv url: http://arxiv.org/abs/2403.15943v2
Date: Thu, 13 Jun 2024 15:30:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-14 23:25:56.717507
Title: Advanced Feature Manipulation for Enhanced Change Detection Leveraging Natural Language Models
Title（参考訳）: 自然言語モデルを利用した変化検出の高度化のための高度な特徴操作
Authors: Zhenglin Li, Yangchen Huang, Mengran Zhu, Jingyu Zhang, JingHao Chang, Houze Liu,
Abstract要約: 大規模言語モデル (LLM) は, 様々な領域で特徴抽出機能に利用されてきた。本研究では、事前学習したLLMのパワーを活用し、広範囲なデータセットから特徴マップを抽出し、変化を検出する補助ネットワークを利用する。
参考スコア（独自算出の注目度）: 2.2933109484655794
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Change detection is a fundamental task in computer vision that processes a bi-temporal image pair to differentiate between semantically altered and unaltered regions. Large language models (LLMs) have been utilized in various domains for their exceptional feature extraction capabilities and have shown promise in numerous downstream applications. In this study, we harness the power of a pre-trained LLM, extracting feature maps from extensive datasets, and employ an auxiliary network to detect changes. Unlike existing LLM-based change detection methods that solely focus on deriving high-quality feature maps, our approach emphasizes the manipulation of these feature maps to enhance semantic relevance.
Abstract（参考訳）: 変化検出は、意味的に変化した領域と変化していない領域を区別するために、両時間画像ペアを処理するコンピュータビジョンの基本的なタスクである。大規模言語モデル(LLM)は、特徴抽出機能のために様々な領域で利用されており、多くの下流アプリケーションで有望であることが示されている。本研究では、事前学習したLLMのパワーを活用し、広範囲なデータセットから特徴マップを抽出し、変化を検出する補助ネットワークを利用する。高品質な特徴写像を導出することのみに焦点を絞った既存のLCMに基づく変化検出手法とは異なり,本手法は意味的関連性を高めるため,これらの特徴写像の操作を重視している。

関連論文リスト

LDGNet: A Lightweight Difference Guiding Network for Remote Sensing Change Detection [6.554696547472252]
光リモートセンシングによる変化検出を誘導する軽量差分誘導ネットワーク(LDGNet)を提案する。まず、軽量バックボーンネットワークの特徴表現能力を高めるために、差分誘導モジュール(DGM)を提案する。次に,Visual State Space Model (VSSM) を用いたDADFモジュールを提案する。
論文参考訳（メタデータ） (2025-04-07T13:33:54Z)
Mask Approximation Net: A Novel Diffusion Model Approach for Remote Sensing Change Captioning [15.88864190284027]
本稿では,拡散モデルを用いたリモートセンシング画像変化検出と記述のための新しいアプローチを提案する。高周波ノイズの管理によりモデル性能を向上させるために,周波数誘導型複素フィルタモジュールを導入する。本稿では,リモートセンシングによる変化検出と記述のための提案手法の有効性を検証する。
論文参考訳（メタデータ） (2024-12-26T11:35:57Z)
Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文参考訳（メタデータ） (2024-12-26T05:41:31Z)
Enhancing Perception of Key Changes in Remote Sensing Image Change Captioning [49.24306593078429]
KCFI(Key Change Features and Instruction-tuned)によるリモートセンシング画像変換キャプションのための新しいフレームワークを提案する。 KCFIは、バイテンポラルリモートセンシング画像特徴を抽出するViTsエンコーダと、重要な変化領域を識別するキー特徴知覚器と、画素レベルの変化検出デコーダとを含む。提案手法の有効性を検証するため,LEVIR-CCデータセット上のいくつかの最新の変更キャプション手法との比較を行った。
論文参考訳（メタデータ） (2024-09-19T09:33:33Z)
Mixture-of-Noises Enhanced Forgery-Aware Predictor for Multi-Face Manipulation Detection and Localization [52.87635234206178]
本稿では,多面的操作検出と局所化に適したMoNFAPという新しいフレームワークを提案する。このフレームワークには2つの新しいモジュールが含まれている: Forgery-aware Unified Predictor (FUP) Module と Mixture-of-Noises Module (MNM)。
論文参考訳（メタデータ） (2024-08-05T08:35:59Z)
ChangeBind: A Hybrid Change Encoder for Remote Sensing Change Detection [16.62779899494721]
変化検出(CD)は、異なる時刻スタンプで同じ地理的領域間の意味的変化を検出することを目的とした、リモートセンシング(RS)の基本課題である。本稿では,バイテンポラルRS画像における意味変化をエンコードする,効果的なSiameseベースのフレームワークを提案する。
論文参考訳（メタデータ） (2024-04-26T17:47:14Z)
Cross-domain Multi-modal Few-shot Object Detection via Rich Text [21.36633828492347]
クロスモーダルな特徴抽出と統合は、数ショットの学習タスクで安定したパフォーマンス改善をもたらした。 MM-OD (CDMM-FSOD) のクロスドメイン数ショット一般化について検討し,メタラーニングに基づく多モード数ショット検出手法を提案する。
論文参考訳（メタデータ） (2024-03-24T15:10:22Z)
Improved Baselines for Data-efficient Perceptual Augmentation of LLMs [66.05826802808177]
コンピュータビジョンでは、画像キャプションや視覚的質問応答などの視覚言語タスクに、大きな言語モデル(LLM)を用いることができる。複数のタスクにまたがる異なる対面機構を実験的に評価する。異なるタスク間で(ほぼ)最適な結果をもたらす新しいインターフェース機構を同定し、トレーニング時間を4倍短縮する。
論文参考訳（メタデータ） (2024-03-20T10:57:17Z)
Selective Domain-Invariant Feature for Generalizable Deepfake Detection [21.671221284842847]
本稿では,コンテンツの特徴やスタイルを融合させることにより,顔の偽造に対する感受性を低下させる新しいフレームワークを提案する。既存のベンチマークと提案における質的および定量的な結果の両方が、我々のアプローチの有効性を示している。
論文参考訳（メタデータ） (2024-03-19T13:09:19Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
Supervising Remote Sensing Change Detection Models with 3D Surface Semantics [1.8782750537161614]
光RGBと地上レベル(AGL)マップペアを用いた共同学習のためのコントラスト表面画像事前学習(CSIP)を提案する。次に、これらの事前訓練されたモデルをいくつかの建物セグメンテーションおよび変更検出データセット上で評価し、実際に、下流アプリケーションに関連する特徴を抽出することを示す。
論文参考訳（メタデータ） (2022-02-26T23:35:43Z)
Efficient Continual Adaptation for Generative Adversarial Networks [97.20244383723853]
GAN(Generative Adversarial Network)に対する連続学習手法を提案する。我々のアプローチは、グローバルパラメータとタスク固有のパラメータのセットを学習することに基づいている。機能マップ変換に基づくアプローチは,最先端のgans手法よりも優れていることを示す。
論文参考訳（メタデータ） (2021-03-06T05:09:37Z)
Semantic Change Detection with Asymmetric Siamese Networks [71.28665116793138]
2つの空中画像が与えられた場合、セマンティックチェンジ検出は、土地被覆のバリエーションを特定し、それらの変化タイプをピクセルワイド境界で識別することを目的としている。この問題は、正確な都市計画や天然資源管理など、多くの地球ビジョンに関連するタスクにおいて不可欠である。本研究では, 広く異なる構造を持つモジュールから得られた特徴対を用いて意味変化を同定し, 同定するための非対称システマネットワーク(ASN)を提案する。
論文参考訳（メタデータ） (2020-10-12T13:26:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。