論文の概要: MIP: CLIP-based Image Reconstruction from PEFT Gradients
- arxiv url: http://arxiv.org/abs/2403.07901v1
- Date: Mon, 26 Feb 2024 02:19:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 06:00:28.657521
- Title: MIP: CLIP-based Image Reconstruction from PEFT Gradients
- Title(参考訳): MIP:PEFT勾配からのCLIPに基づく画像再構成
- Authors: Peiheng Zhou, Ming Hu, Xiaofei Xie, Yihao Huang, Kangjie Chen, Mingsong Chen,
- Abstract要約: 本稿では,CLIPをベースとした分散機械学習アーキテクチャを対象とした,独自の再構築攻撃手法を提案する。
特に、MIPはソフトプロンプトやアダプタの勾配に応じてCLIPトレーニングイメージを再構成することができる。
実験の結果,MIPはCLIPモデルのソフトプロンプトやアダプタの勾配に応じて,トレーニングイメージを効果的に再構築できることがわかった。
- 参考スコア(独自算出の注目度): 25.41543057104711
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Language-Image Pre-training (CLIP) model, as an effective pre-trained multimodal neural network, has been widely used in distributed machine learning tasks, especially Federated Learning (FL). Typically, CLIP-based FL adopts Parameter-Efficient Fine-Tuning (PEFT) for model training, which only fine-tunes adapter parameters or soft prompts rather than the full parameters. Although PEFT is different from the traditional training mode, in this paper, we theoretically analyze that the gradients of adapters or soft prompts can still be used to perform image reconstruction attacks. Based on our theoretical analysis, we propose Multm-In-Parvo (MIP), a proprietary reconstruction attack method targeting CLIP-based distributed machine learning architecture. Specifically, MIP can reconstruct CLIP training images according to the gradients of soft prompts or an adapter. In addition, MIP includes a label prediction strategy to accelerate convergence and an inverse gradient estimation mechanism to avoid the vanishing gradient problem on the text encoder. Experimental results show that MIP can effectively reconstruct training images according to the gradients of soft prompts or adapters of CLIP models.
- Abstract(参考訳): 効果的な事前学習型マルチモーダルニューラルネットワークとしてのコントラスト言語-画像事前学習(CLIP)モデルは、分散機械学習タスク、特にフェデレートラーニング(FL)で広く利用されている。
通常、CLIPベースのFLはモデルトレーニングにパラメータ効率の良いファインチューニング(PEFT)を採用する。
PEFTは従来のトレーニングモードとは異なるが,本稿では,アダプタやソフトプロンプトの勾配を画像再構成攻撃に使用することができることを理論的に分析する。
理論解析に基づいて,CLIPをベースとした分散機械学習アーキテクチャを対象とした独自の再構成攻撃手法であるMultm-In-Parvo(MIP)を提案する。
特に、MIPはソフトプロンプトやアダプタの勾配に応じてCLIPトレーニングイメージを再構成することができる。
さらに、MIPは収束を加速するラベル予測戦略と、テキストエンコーダの消失勾配問題を回避する逆勾配推定機構を含む。
実験の結果,MIPはCLIPモデルのソフトプロンプトやアダプタの勾配に応じて,トレーニングイメージを効果的に再構築できることがわかった。
関連論文リスト
- CALLIC: Content Adaptive Learning for Lossless Image Compression [64.47244912937204]
CALLICは、学習したロスレス画像圧縮のための新しい最先端(SOTA)を設定する。
本稿では,畳み込みゲーティング操作を利用したコンテンツ認識型自己回帰自己保持機構を提案する。
エンコーディング中、低ランク行列を用いて深度の畳み込みを含む事前学習層を分解し、レート誘導プログレッシブファインタニング(RPFT)による画像検査にインクリメンタルウェイトを適応させる。
推定エントロピーにより下位順にソートされたパッチを徐々に増加させたRPFTファインチューン,学習過程の最適化,適応時間の短縮を実現した。
論文 参考訳(メタデータ) (2024-12-23T10:41:18Z) - CLIP-MoE: Towards Building Mixture of Experts for CLIP with Diversified Multiplet Upcycling [21.734200158914476]
コントラスト言語-画像事前学習(CLIP)はマルチモーダルインテリジェンスの基礎となっている。
DMUは、異なる特徴空間をキャプチャする一連のCLIPモデルを効率的に微調整する。
様々なゼロショット検索、ゼロショット画像分類タスクにおけるCLIP-MoEの顕著な性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-09-28T09:28:51Z) - Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。
実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - MoPE-CLIP: Structured Pruning for Efficient Vision-Language Models with
Module-wise Pruning Error Metric [57.3330687266266]
より小さな事前学習モデルを用いてCLIPモデルに等級に基づくプルーニングを適用すると、柔軟性が低下し、性能が低下することがわかった。
The Module-wise Pruning Error (MoPE) metric, we introduced a unified pruning framework for both pre-training and task-specific fine-tuning compression stage。
論文 参考訳(メタデータ) (2024-03-12T17:24:26Z) - CLIP Guided Image-perceptive Prompt Learning for Image Enhancement [15.40368082025006]
コントラスト言語-画像事前学習(CLIP)ガイドプロンプト学習を提案する。
私たちは、CLIPモデルを用いて、オリジナル画像とターゲット画像とを区別するためのイメージ知覚プロンプトを学習する。
我々は,3種類のLUTの重みを拡張ネットワークとして予測するために,単純なベースラインを組み込むことにより,非常に単純なネットワークを導入する。
論文 参考訳(メタデータ) (2023-11-07T12:36:20Z) - Imaging through multimode fibres with physical prior [3.174639607243348]
本稿では,物理支援,教師なし,学習に基づくファイバーイメージング手法を提案する。
オンライン学習の再構築プロセスは、いくつかのスペックルパターンと未実装のターゲットのみを必要とする。
提案手法はマルチモードファイバー画像の応用を拡大する可能性がある。
論文 参考訳(メタデータ) (2023-11-06T12:46:29Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Multi-layer Clustering-based Residual Sparsifying Transform for Low-dose
CT Image Reconstruction [11.011268090482575]
本稿では,X線CT(Computerd Tomography)再構成のためのネットワーク構造スペーシング変換学習手法を提案する。
我々は, PWLS (Palalized weighted least squares) 再構成において, MCSTモデルを正規化器に配置することにより低用量CT再構成にMCSTモデルを適用した。
シミュレーションの結果,PWLS-MCSTは従来のFBP法やEP正則化を用いたPWLSよりも画像再構成精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-03-22T09:38:41Z) - Perceptually Optimizing Deep Image Compression [53.705543593594285]
平均二乗誤差(MSE)と$ell_p$ノルムは、ニューラルネットワークの損失の測定で大きく支配されている。
本稿では,定量的知覚モデルに対して,画像解析ネットワークを最適化するための異なるプロキシ手法を提案する。
論文 参考訳(メタデータ) (2020-07-03T14:33:28Z) - Predictive Coding Approximates Backprop along Arbitrary Computation
Graphs [68.8204255655161]
我々は、コア機械学習アーキテクチャを予測的符号化に翻訳する戦略を開発する。
私たちのモデルは、挑戦的な機械学習ベンチマークのバックプロップと同等に機能します。
本手法は,ニューラルネットワークに標準機械学習アルゴリズムを直接実装できる可能性を高める。
論文 参考訳(メタデータ) (2020-06-07T15:35:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。