論文の概要: Advanced Feature Manipulation for Enhanced Change Detection Leveraging Natural Language Models
- arxiv url: http://arxiv.org/abs/2403.15943v2
- Date: Thu, 13 Jun 2024 15:30:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 23:25:56.717507
- Title: Advanced Feature Manipulation for Enhanced Change Detection Leveraging Natural Language Models
- Title(参考訳): 自然言語モデルを利用した変化検出の高度化のための高度な特徴操作
- Authors: Zhenglin Li, Yangchen Huang, Mengran Zhu, Jingyu Zhang, JingHao Chang, Houze Liu,
- Abstract要約: 大規模言語モデル (LLM) は, 様々な領域で特徴抽出機能に利用されてきた。
本研究では、事前学習したLLMのパワーを活用し、広範囲なデータセットから特徴マップを抽出し、変化を検出する補助ネットワークを利用する。
- 参考スコア(独自算出の注目度): 2.2933109484655794
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Change detection is a fundamental task in computer vision that processes a bi-temporal image pair to differentiate between semantically altered and unaltered regions. Large language models (LLMs) have been utilized in various domains for their exceptional feature extraction capabilities and have shown promise in numerous downstream applications. In this study, we harness the power of a pre-trained LLM, extracting feature maps from extensive datasets, and employ an auxiliary network to detect changes. Unlike existing LLM-based change detection methods that solely focus on deriving high-quality feature maps, our approach emphasizes the manipulation of these feature maps to enhance semantic relevance.
- Abstract(参考訳): 変化検出は、意味的に変化した領域と変化していない領域を区別するために、両時間画像ペアを処理するコンピュータビジョンの基本的なタスクである。
大規模言語モデル(LLM)は、特徴抽出機能のために様々な領域で利用されており、多くの下流アプリケーションで有望であることが示されている。
本研究では、事前学習したLLMのパワーを活用し、広範囲なデータセットから特徴マップを抽出し、変化を検出する補助ネットワークを利用する。
高品質な特徴写像を導出することのみに焦点を絞った既存のLCMに基づく変化検出手法とは異なり,本手法は意味的関連性を高めるため,これらの特徴写像の操作を重視している。
関連論文リスト
- ChangeBind: A Hybrid Change Encoder for Remote Sensing Change Detection [16.62779899494721]
変化検出(CD)は、異なる時刻スタンプで同じ地理的領域間の意味的変化を検出することを目的とした、リモートセンシング(RS)の基本課題である。
本稿では,バイテンポラルRS画像における意味変化をエンコードする,効果的なSiameseベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-26T17:47:14Z) - Cross-domain Multi-modal Few-shot Object Detection via Rich Text [21.36633828492347]
クロスモーダルな特徴抽出と統合は、数ショットの学習タスクで安定したパフォーマンス改善をもたらした。
MM-OD (CDMM-FSOD) のクロスドメイン数ショット一般化について検討し,メタラーニングに基づく多モード数ショット検出手法を提案する。
論文 参考訳(メタデータ) (2024-03-24T15:10:22Z) - Improved Baselines for Data-efficient Perceptual Augmentation of LLMs [66.05826802808177]
コンピュータビジョンでは、画像キャプションや視覚的質問応答などの視覚言語タスクに、大きな言語モデル(LLM)を用いることができる。
複数のタスクにまたがる異なる対面機構を実験的に評価する。
異なるタスク間で(ほぼ)最適な結果をもたらす新しいインターフェース機構を同定し、トレーニング時間を4倍短縮する。
論文 参考訳(メタデータ) (2024-03-20T10:57:17Z) - Selective Domain-Invariant Feature for Generalizable Deepfake Detection [21.671221284842847]
本稿では,コンテンツの特徴やスタイルを融合させることにより,顔の偽造に対する感受性を低下させる新しいフレームワークを提案する。
既存のベンチマークと提案における質的および定量的な結果の両方が、我々のアプローチの有効性を示している。
論文 参考訳(メタデータ) (2024-03-19T13:09:19Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Audio-Adaptive Activity Recognition Across Video Domains [112.46638682143065]
ドメイン間のばらつきが少なく、どのアクティビティが起こっていないかを確実に示すことができるので、ドメイン適応のためにアクティビティサウンドを活用します。
視覚特徴表現を識別的に調整するオーディオ適応型エンコーダと学習方法を提案する。
また、アクターシフトという新たなタスクを対応するオーディオ・ビジュアル・データセットで導入し、アクターの出現が劇的に変化する状況において、我々の手法に挑戦する。
論文 参考訳(メタデータ) (2022-03-27T08:15:20Z) - Supervising Remote Sensing Change Detection Models with 3D Surface
Semantics [1.8782750537161614]
光RGBと地上レベル(AGL)マップペアを用いた共同学習のためのコントラスト表面画像事前学習(CSIP)を提案する。
次に、これらの事前訓練されたモデルをいくつかの建物セグメンテーションおよび変更検出データセット上で評価し、実際に、下流アプリケーションに関連する特徴を抽出することを示す。
論文 参考訳(メタデータ) (2022-02-26T23:35:43Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Efficient Continual Adaptation for Generative Adversarial Networks [97.20244383723853]
GAN(Generative Adversarial Network)に対する連続学習手法を提案する。
我々のアプローチは、グローバルパラメータとタスク固有のパラメータのセットを学習することに基づいている。
機能マップ変換に基づくアプローチは,最先端のgans手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-06T05:09:37Z) - Semantic Change Detection with Asymmetric Siamese Networks [71.28665116793138]
2つの空中画像が与えられた場合、セマンティックチェンジ検出は、土地被覆のバリエーションを特定し、それらの変化タイプをピクセルワイド境界で識別することを目的としている。
この問題は、正確な都市計画や天然資源管理など、多くの地球ビジョンに関連するタスクにおいて不可欠である。
本研究では, 広く異なる構造を持つモジュールから得られた特徴対を用いて意味変化を同定し, 同定するための非対称システマネットワーク(ASN)を提案する。
論文 参考訳(メタデータ) (2020-10-12T13:26:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。