論文の概要: Optimal Transport Adapter Tuning for Bridging Modality Gaps in Few-Shot Remote Sensing Scene Classification
- arxiv url: http://arxiv.org/abs/2503.14938v1
- Date: Wed, 19 Mar 2025 07:04:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:23:44.826860
- Title: Optimal Transport Adapter Tuning for Bridging Modality Gaps in Few-Shot Remote Sensing Scene Classification
- Title(参考訳): Few-Shotリモートセンシングシーン分類におけるブリッジングモダリティギャップのための最適トランスポートアダプタチューニング
- Authors: Zhong Ji, Ci Liu, Jingren Liu, Chen Tang, Yanwei Pang, Xuelong Li,
- Abstract要約: Few-Shot Remote Sensing Scene Classification (FS-RSSC)は,限られたラベル付きサンプルを用いたリモートセンシング画像の分類の課題を示す。
理想的なプラトン表現空間を構築することを目的とした,OTAT(Optimal Transport Adapter Tuning)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 80.83325513157637
- License:
- Abstract: Few-Shot Remote Sensing Scene Classification (FS-RSSC) presents the challenge of classifying remote sensing images with limited labeled samples. Existing methods typically emphasize single-modal feature learning, neglecting the potential benefits of optimizing multi-modal representations. To address this limitation, we propose a novel Optimal Transport Adapter Tuning (OTAT) framework aimed at constructing an ideal Platonic representational space through optimal transport (OT) theory. This framework seeks to harmonize rich visual information with less dense textual cues, enabling effective cross-modal information transfer and complementarity. Central to this approach is the Optimal Transport Adapter (OTA), which employs a cross-modal attention mechanism to enrich textual representations and facilitate subsequent better information interaction. By transforming the network optimization into an OT optimization problem, OTA establishes efficient pathways for balanced information exchange between modalities. Moreover, we introduce a sample-level Entropy-Aware Weighted (EAW) loss, which combines difficulty-weighted similarity scores with entropy-based regularization. This loss function provides finer control over the OT optimization process, enhancing its solvability and stability. Our framework offers a scalable and efficient solution for advancing multimodal learning in remote sensing applications. Extensive experiments on benchmark datasets demonstrate that OTAT achieves state-of-the-art performance in FS-RSSC, significantly improving the model performance and generalization.
- Abstract(参考訳): Few-Shot Remote Sensing Scene Classification (FS-RSSC)は,限られたラベル付きサンプルを用いたリモートセンシング画像の分類の課題を示す。
既存の手法は通常、単一モーダルな特徴学習を強調し、マルチモーダル表現を最適化する潜在的な利点を無視している。
この制限に対処するために、最適輸送(OT)理論により理想的なプラトン表現空間を構築することを目的とした、新しい最適輸送アダプタチューニング(OTAT)フレームワークを提案する。
このフレームワークは、リッチな視覚情報をより密度の低いテキストで調和させ、効果的なクロスモーダル情報転送と相補性を実現する。
このアプローチの中心となるのはOTA(Optimal Transport Adapter)であり、これはテキスト表現を豊かにし、その後のより良い情報相互作用を促進するために、モーダルな注意機構を使用する。
ネットワーク最適化をOT最適化問題に変換することにより、OTAはモダリティ間のバランスの取れた情報交換のための効率的な経路を確立する。
さらに、難易度類似度スコアとエントロピーに基づく正規化を組み合わせたサンプルレベルのエントロピー認識重み付け(EAW)損失を導入する。
この損失関数は、OT最適化プロセスのより細かい制御を提供し、その可溶性と安定性を高める。
我々のフレームワークは、リモートセンシングアプリケーションでマルチモーダル学習を進めるためのスケーラブルで効率的なソリューションを提供する。
ベンチマークデータセットの大規模な実験により、OTATはFS-RSSCで最先端のパフォーマンスを実現し、モデル性能と一般化を大幅に改善した。
関連論文リスト
- Towards Explainable Evolution Strategies with Large Language Models [0.0]
本稿では,自己適応的進化戦略(ES)と大規模言語モデル(LLM)を統合するアプローチを提案する。
再起動機構を備えた自己適応型ESを用いることで、ベンチマーク関数の難易度を効果的にナビゲートする。
LLMを使用してこれらのログを処理し、簡潔でユーザフレンドリーな要約を生成する。
論文 参考訳(メタデータ) (2024-07-11T09:28:27Z) - PRANCE: Joint Token-Optimization and Structural Channel-Pruning for Adaptive ViT Inference [44.77064952091458]
PRANCEはVision Transformer圧縮フレームワークで、アクティベートされたチャネルを共同で最適化し、入力の特性に基づいてトークンを削減する。
本稿では,ViTの推論過程を逐次決定プロセスとしてモデル化する,新しい「結果と結果」学習機構を提案する。
我々のフレームワークは、プルーニング、マージング、プルーニングマージングといった様々なトークン最適化手法と互換性があることが示されている。
論文 参考訳(メタデータ) (2024-07-06T09:04:27Z) - Learning to Rebalance Multi-Modal Optimization by Adaptively Masking Subnetworks [13.065212096469537]
モーダル有意性を考慮した適応マスクサブネット(adaptively Mask Subnetworks, AMSS)と呼ばれる, サンプリングベース, 要素単位の結合最適化手法を提案する。
具体的には,モーダルの重要度を決定するために相互情報レートを組み込んで,パラメータ更新のために各モーダルからフォアグラウンドワークを選択するために,非一様適応サンプリングを用いる。
理論的知見に基づいて、AMSS+と呼ばれる非バイアス推定を用いたマルチモーダルマスクサブネットワーク戦略をさらに強化する。
論文 参考訳(メタデータ) (2024-04-12T09:22:24Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Integrating Efficient Optimal Transport and Functional Maps For
Unsupervised Shape Correspondence Learning [43.6925865296259]
本稿では、関数マップ正規化器とSWDから派生した新しいOTに基づく損失を統合する教師なし形状マッチングフレームワークを提案する。
また、エントロピー正則化OTを用いた適応的精細化プロセスを導入し、正確な点対点対応のための特徴アライメントをさらに強化する。
本手法は,非剛性形状マッチングにおいて,ほぼ等尺性および非等尺性シナリオを含む優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-04T07:21:07Z) - Sample-Driven Federated Learning for Energy-Efficient and Real-Time IoT
Sensing [22.968661040226756]
我々は,ソフトアクター・クリティカル(A2C)フレームワーク上に構築されたSCFL(Sample-driven Control for Federated Learning)というオンライン強化学習アルゴリズムを導入する。
SCFLにより、エージェントは動的に適応し、変化する環境においてもグローバルな最適条件を見つけることができる。
論文 参考訳(メタデータ) (2023-10-11T13:50:28Z) - A Meta-Learning Based Precoder Optimization Framework for Rate-Splitting
Multiple Access [53.191806757701215]
本稿では,トランスミッタ(CSIT)における部分チャネル状態情報を持つRSMAプリコーダを直接最適化するために,メタラーニングに基づく事前コーダ最適化フレームワークを提案する。
コンパクトニューラルネットワークのオーバーフィッティングを利用して、ASR(Average Sum-Rate)表現を最大化することにより、実行時間を最小化しながら、他のトレーニングデータの必要性を効果的に回避する。
数値的な結果から,メタラーニングに基づく解は,中規模シナリオにおける従来のプリコーダ最適化に類似したASR性能を実現し,大規模シナリオにおける準最適低複雑性プリコーダアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-07-17T20:31:41Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Latent-Optimized Adversarial Neural Transfer for Sarcasm Detection [50.29565896287595]
サーカズム検出のための共通データセットを活用するために,転送学習を適用する。
異なる損失が互いに対応できる汎用的な潜時最適化戦略を提案します。
特に、isarcasmデータセットの以前の状態よりも10.02%の絶対性能向上を達成している。
論文 参考訳(メタデータ) (2021-04-19T13:07:52Z) - Domain Adaptive Person Re-Identification via Coupling Optimization [58.567492812339566]
ドメイン適応型人物再識別(ReID)は、ドメインのギャップとターゲットシナリオに対するアノテーションの不足のために困難である。
本稿では,ドメイン不変写像 (DIM) 法とグローバル局所距離最適化 (GLO) を含む結合最適化手法を提案する。
GLOはターゲットドメインの教師なし設定でReIDモデルをトレーニングするために設計されている。
論文 参考訳(メタデータ) (2020-11-06T14:01:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。