論文の概要: Federated Cross-Modal Style-Aware Prompt Generation
- arxiv url: http://arxiv.org/abs/2508.12399v1
- Date: Sun, 17 Aug 2025 15:23:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.743449
- Title: Federated Cross-Modal Style-Aware Prompt Generation
- Title(参考訳): Federated Cross-Modal Style-Aware Prompt Generation
- Authors: Suraj Prasad, Navyansh Mahla, Sunny Gupta, Amit Sethi,
- Abstract要約: FedCSAPはコンテキスト対応のプロンプトトークンを生成する。
私たちのフレームワークは、クライアント固有のスタイルインジケータとともに、CLIPのビジョンエンコーダの低、中、高レベルの機能を活用しています。
- 参考スコア(独自算出の注目度): 2.4472081831862655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt learning has propelled vision-language models like CLIP to excel in diverse tasks, making them ideal for federated learning due to computational efficiency. However, conventional approaches that rely solely on final-layer features miss out on rich multi-scale visual cues and domain-specific style variations in decentralized client data. To bridge this gap, we introduce FedCSAP (Federated Cross-Modal Style-Aware Prompt Generation). Our framework harnesses low, mid, and high-level features from CLIP's vision encoder alongside client-specific style indicators derived from batch-level statistics. By merging intricate visual details with textual context, FedCSAP produces robust, context-aware prompt tokens that are both distinct and non-redundant, thereby boosting generalization across seen and unseen classes. Operating within a federated learning paradigm, our approach ensures data privacy through local training and global aggregation, adeptly handling non-IID class distributions and diverse domain-specific styles. Comprehensive experiments on multiple image classification datasets confirm that FedCSAP outperforms existing federated prompt learning methods in both accuracy and overall generalization.
- Abstract(参考訳): プロンプト学習は、CLIPのような視覚言語モデルに様々なタスクを最適化させ、計算効率によるフェデレーション学習に最適である。
しかし、ファイナル層機能のみに依存する従来のアプローチでは、分散化されたクライアントデータにおいて、リッチなマルチスケールのビジュアルキューやドメイン固有のスタイルのバリエーションが欠落している。
このギャップを埋めるために、FedCSAP(Federated Cross-Modal Style-Aware Prompt Generation)を紹介する。
私たちのフレームワークは、バッチレベルの統計から派生したクライアント固有のスタイルインジケータとともに、CLIPのビジョンエンコーダの低、中、高レベルの機能を活用しています。
複雑な視覚的詳細をテキストコンテキストにマージすることで、FedCSAPは、区別と非冗長の両方である堅牢でコンテキスト対応のプロンプトトークンを生成する。
フェデレートされた学習パラダイム内で運用することで、ローカルトレーニングやグローバルアグリゲーションを通じてデータのプライバシを保証し、非IIDクラス分布や多様なドメイン固有のスタイルを順応的に処理する。
複数の画像分類データセットに関する総合的な実験により、FedCSAPは既存のフェデレーション・プロンプト学習法を精度と全体的な一般化の両方で上回っていることを確認した。
関連論文リスト
- Personalized Federated Learning via Dual-Prompt Optimization and Cross Fusion [44.8670376715096]
フェデレートラーニング(FL)は、ローカルデータを共有せずに、分散化されたクライアント間で協調的なモデルトレーニングを可能にする。
我々は,pFedDCと呼ばれる,二重プロンプト学習と相互融合に基づくパーソナライズされたFLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-26T10:59:14Z) - FedSC: Federated Learning with Semantic-Aware Collaboration [12.366529890744822]
フェデレートラーニング(FL)は、プライバシ保護のためのデータを共有することなく、クライアント間で協調的にモデルをトレーニングすることを目的としている。
不均一なクライアント間でクライアント固有のクラス関連知識を収集するために,FedSC(Federated Learning with Semantic-Aware Collaboration)を提案する。
論文 参考訳(メタデータ) (2025-06-26T05:04:55Z) - FedRSClip: Federated Learning for Remote Sensing Scene Classification Using Vision-Language Models [23.830133838392964]
本稿では,VLM,特にCLIPに基づくリモートセンシング画像分類のための最初のフェデレーション学習フレームワークであるFedRSCLIPを提案する。
FedRSCLIPは、Prompt Learningを導入することで、フェデレーション環境におけるデータ不均一性と大規模モデル伝送の課題に対処する。
提案モデルの有効性を検証するため,既存の3つのリモートセンシング画像分類データセットに基づいてFed-RSICデータセットを構築した。
論文 参考訳(メタデータ) (2025-01-05T07:10:27Z) - Beyond Mask: Rethinking Guidance Types in Few-shot Segmentation [67.35274834837064]
我々は、テキスト、マスク、ボックス、画像からのプロンプトを統合するユニバーサルビジョン言語フレームワーク(UniFSS)を開発した。
UniFSSは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-07-16T08:41:01Z) - UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding [90.74967596080982]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語-画像事前学習(CLIP)を拡張した。
UMG-CLIPと呼ばれる統一多言語学習フレームワークを開発した。
パラメータ効率のよいチューニングにより、UMG-CLIPは、現在広く使われているCLIPの亜種を超え、多様な画像理解ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-12T06:35:09Z) - CLAP: Isolating Content from Style through Contrastive Learning with Augmented Prompts [11.752632557524969]
コンテンツの特徴を元の表現から切り離すために,データ拡張によるコントラスト学習を提案する。
多様なデータセットを対象とした実験では、ゼロショットと少数ショットの分類タスクが大幅に改善された。
論文 参考訳(メタデータ) (2023-11-28T03:00:59Z) - Personalized Federated Learning via Amortized Bayesian Meta-Learning [21.126405589760367]
我々は,Amortized Bayesian Meta-Learningを通じて,パーソナライズド・フェデレーション・ラーニングの新しい視点を紹介する。
具体的には,クライアント間の階層的変動推論を用いたemphFedABMLという新しいアルゴリズムを提案する。
我々の理論解析は平均一般化誤差の上限を提供し、未知のデータに対する一般化性能を保証する。
論文 参考訳(メタデータ) (2023-07-05T11:58:58Z) - Exploiting Shared Representations for Personalized Federated Learning [54.65133770989836]
本稿では,クライアント間の共有データ表現と,クライアント毎のユニークなローカルヘッダを学習するための,新しいフェデレーション学習フレームワークとアルゴリズムを提案する。
提案アルゴリズムは, クライアント間の分散計算能力を利用して, 表現の更新毎に低次元の局所パラメータに対して, 多数の局所更新を行う。
この結果は、データ分布間の共有低次元表現を学習することを目的とした、幅広い種類の問題に対するフェデレーション学習以上の関心を持っている。
論文 参考訳(メタデータ) (2021-02-14T05:36:25Z) - DiVA: Diverse Visual Feature Aggregation for Deep Metric Learning [83.48587570246231]
視覚的類似性は多くのコンピュータビジョンアプリケーションにおいて重要な役割を果たす。
ディープ・メトリック・ラーニング(DML)は、そのような類似性を学ぶための強力なフレームワークである。
我々は,概念的に異なるデータ関係を対象とする複数の補完学習タスクを提案し,研究する。
我々は、訓練信号を集約する単一モデルを学び、その結果、強力な一般化と最先端のパフォーマンスが得られる。
論文 参考訳(メタデータ) (2020-04-28T12:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。