論文の概要: Optimal Transport Adapter Tuning for Bridging Modality Gaps in Few-Shot Remote Sensing Scene Classification
- arxiv url: http://arxiv.org/abs/2503.14938v1
- Date: Wed, 19 Mar 2025 07:04:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 17:45:40.888657
- Title: Optimal Transport Adapter Tuning for Bridging Modality Gaps in Few-Shot Remote Sensing Scene Classification
- Title(参考訳): Few-Shotリモートセンシングシーン分類におけるブリッジングモダリティギャップのための最適トランスポートアダプタチューニング
- Authors: Zhong Ji, Ci Liu, Jingren Liu, Chen Tang, Yanwei Pang, Xuelong Li,
- Abstract要約: Few-Shot Remote Sensing Scene Classification (FS-RSSC)は,限られたラベル付きサンプルを用いたリモートセンシング画像の分類の課題を示す。
理想的なプラトン表現空間を構築することを目的とした,OTAT(Optimal Transport Adapter Tuning)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 80.83325513157637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few-Shot Remote Sensing Scene Classification (FS-RSSC) presents the challenge of classifying remote sensing images with limited labeled samples. Existing methods typically emphasize single-modal feature learning, neglecting the potential benefits of optimizing multi-modal representations. To address this limitation, we propose a novel Optimal Transport Adapter Tuning (OTAT) framework aimed at constructing an ideal Platonic representational space through optimal transport (OT) theory. This framework seeks to harmonize rich visual information with less dense textual cues, enabling effective cross-modal information transfer and complementarity. Central to this approach is the Optimal Transport Adapter (OTA), which employs a cross-modal attention mechanism to enrich textual representations and facilitate subsequent better information interaction. By transforming the network optimization into an OT optimization problem, OTA establishes efficient pathways for balanced information exchange between modalities. Moreover, we introduce a sample-level Entropy-Aware Weighted (EAW) loss, which combines difficulty-weighted similarity scores with entropy-based regularization. This loss function provides finer control over the OT optimization process, enhancing its solvability and stability. Our framework offers a scalable and efficient solution for advancing multimodal learning in remote sensing applications. Extensive experiments on benchmark datasets demonstrate that OTAT achieves state-of-the-art performance in FS-RSSC, significantly improving the model performance and generalization.
- Abstract(参考訳): Few-Shot Remote Sensing Scene Classification (FS-RSSC)は,限られたラベル付きサンプルを用いたリモートセンシング画像の分類の課題を示す。
既存の手法は通常、単一モーダルな特徴学習を強調し、マルチモーダル表現を最適化する潜在的な利点を無視している。
この制限に対処するために、最適輸送(OT)理論により理想的なプラトン表現空間を構築することを目的とした、新しい最適輸送アダプタチューニング(OTAT)フレームワークを提案する。
このフレームワークは、リッチな視覚情報をより密度の低いテキストで調和させ、効果的なクロスモーダル情報転送と相補性を実現する。
このアプローチの中心となるのはOTA(Optimal Transport Adapter)であり、これはテキスト表現を豊かにし、その後のより良い情報相互作用を促進するために、モーダルな注意機構を使用する。
ネットワーク最適化をOT最適化問題に変換することにより、OTAはモダリティ間のバランスの取れた情報交換のための効率的な経路を確立する。
さらに、難易度類似度スコアとエントロピーに基づく正規化を組み合わせたサンプルレベルのエントロピー認識重み付け(EAW)損失を導入する。
この損失関数は、OT最適化プロセスのより細かい制御を提供し、その可溶性と安定性を高める。
我々のフレームワークは、リモートセンシングアプリケーションでマルチモーダル学習を進めるためのスケーラブルで効率的なソリューションを提供する。
ベンチマークデータセットの大規模な実験により、OTATはFS-RSSCで最先端のパフォーマンスを実現し、モデル性能と一般化を大幅に改善した。
関連論文リスト
- Communication-Efficient Wireless Federated Fine-Tuning for Large-Scale AI Models [13.742950928229078]
Low-Rank Adaptation (LoRA) は、完全に微調整された大型モデルではなく、コンパクトで低ランクな行列を訓練することでこれらの問題に対処する。
本稿では,学習性能と通信効率の両方を最適化する無線フェデレーションLoRAファインチューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-01T06:15:38Z) - Efficient Federated Split Learning for Large Language Models over Communication Networks [14.461758448289908]
分散方式で訓練済みの大規模言語モデル(LLM)を微調整することは、リソース制約のあるエッジデバイスに重大な課題をもたらす。
我々は,分割フェデレーション学習とパラメータ効率のよい微調整技術を統合する新しいフレームワークであるFedsLLMを提案する。
論文 参考訳(メタデータ) (2025-04-20T16:16:54Z) - Continual Optimization with Symmetry Teleportation for Multi-Task Learning [73.28772872740744]
マルチタスク学習(MTL)は、1つのモデルを用いて複数のタスクの同時学習を可能にする。
シンメトリ・テレポーテーション(COST)を用いた連続最適化に基づく新しい手法を提案する。
COSTは、競合の勾配を減らすために、損失ランドスケープに別の損失等価点を求める。
論文 参考訳(メタデータ) (2025-03-06T02:58:09Z) - Joint Optimal Transport and Embedding for Network Alignment [66.49765320358361]
本稿では,JOENA というネットワークアライメントのための統合最適トランスポートおよび埋め込みフレームワークを提案する。
統一された目的により、両手法の相互利益は、コンバージェンスを保証する最適化スキーマの交互化によって達成できる。
実世界のネットワークの実験はJOENAの有効性とスケーラビリティを検証し、最大16%の改善と20倍の高速化を実現した。
論文 参考訳(メタデータ) (2025-02-26T17:28:08Z) - Towards Explainable Evolution Strategies with Large Language Models [0.0]
本稿では,自己適応的進化戦略(ES)と大規模言語モデル(LLM)を統合するアプローチを提案する。
再起動機構を備えた自己適応型ESを用いることで、ベンチマーク関数の難易度を効果的にナビゲートする。
LLMを使用してこれらのログを処理し、簡潔でユーザフレンドリーな要約を生成する。
論文 参考訳(メタデータ) (2024-07-11T09:28:27Z) - PRANCE: Joint Token-Optimization and Structural Channel-Pruning for Adaptive ViT Inference [44.77064952091458]
PRANCEはVision Transformer圧縮フレームワークで、アクティベートされたチャネルを共同で最適化し、入力の特性に基づいてトークンを削減する。
本稿では,ViTの推論過程を逐次決定プロセスとしてモデル化する,新しい「結果と結果」学習機構を提案する。
我々のフレームワークは、プルーニング、マージング、プルーニングマージングといった様々なトークン最適化手法と互換性があることが示されている。
論文 参考訳(メタデータ) (2024-07-06T09:04:27Z) - Learning to Rebalance Multi-Modal Optimization by Adaptively Masking Subnetworks [13.065212096469537]
モーダル有意性を考慮した適応マスクサブネット(adaptively Mask Subnetworks, AMSS)と呼ばれる, サンプリングベース, 要素単位の結合最適化手法を提案する。
具体的には,モーダルの重要度を決定するために相互情報レートを組み込んで,パラメータ更新のために各モーダルからフォアグラウンドワークを選択するために,非一様適応サンプリングを用いる。
理論的知見に基づいて、AMSS+と呼ばれる非バイアス推定を用いたマルチモーダルマスクサブネットワーク戦略をさらに強化する。
論文 参考訳(メタデータ) (2024-04-12T09:22:24Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Sample-Driven Federated Learning for Energy-Efficient and Real-Time IoT
Sensing [22.968661040226756]
我々は,ソフトアクター・クリティカル(A2C)フレームワーク上に構築されたSCFL(Sample-driven Control for Federated Learning)というオンライン強化学習アルゴリズムを導入する。
SCFLにより、エージェントは動的に適応し、変化する環境においてもグローバルな最適条件を見つけることができる。
論文 参考訳(メタデータ) (2023-10-11T13:50:28Z) - A Meta-Learning Based Precoder Optimization Framework for Rate-Splitting
Multiple Access [53.191806757701215]
本稿では,トランスミッタ(CSIT)における部分チャネル状態情報を持つRSMAプリコーダを直接最適化するために,メタラーニングに基づく事前コーダ最適化フレームワークを提案する。
コンパクトニューラルネットワークのオーバーフィッティングを利用して、ASR(Average Sum-Rate)表現を最大化することにより、実行時間を最小化しながら、他のトレーニングデータの必要性を効果的に回避する。
数値的な結果から,メタラーニングに基づく解は,中規模シナリオにおける従来のプリコーダ最適化に類似したASR性能を実現し,大規模シナリオにおける準最適低複雑性プリコーダアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-07-17T20:31:41Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。