Fugu-MT 論文翻訳(概要): MIP: CLIP-based Image Reconstruction from PEFT Gradients

論文の概要: MIP: CLIP-based Image Reconstruction from PEFT Gradients

arxiv url: http://arxiv.org/abs/2403.07901v1
Date: Mon, 26 Feb 2024 02:19:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-18 06:00:28.657521
Title: MIP: CLIP-based Image Reconstruction from PEFT Gradients
Title（参考訳）: MIP:PEFT勾配からのCLIPに基づく画像再構成
Authors: Peiheng Zhou, Ming Hu, Xiaofei Xie, Yihao Huang, Kangjie Chen, Mingsong Chen,
Abstract要約: 本稿では,CLIPをベースとした分散機械学習アーキテクチャを対象とした,独自の再構築攻撃手法を提案する。特に、MIPはソフトプロンプトやアダプタの勾配に応じてCLIPトレーニングイメージを再構成することができる。実験の結果,MIPはCLIPモデルのソフトプロンプトやアダプタの勾配に応じて,トレーニングイメージを効果的に再構築できることがわかった。
参考スコア（独自算出の注目度）: 25.41543057104711
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Contrastive Language-Image Pre-training (CLIP) model, as an effective pre-trained multimodal neural network, has been widely used in distributed machine learning tasks, especially Federated Learning (FL). Typically, CLIP-based FL adopts Parameter-Efficient Fine-Tuning (PEFT) for model training, which only fine-tunes adapter parameters or soft prompts rather than the full parameters. Although PEFT is different from the traditional training mode, in this paper, we theoretically analyze that the gradients of adapters or soft prompts can still be used to perform image reconstruction attacks. Based on our theoretical analysis, we propose Multm-In-Parvo (MIP), a proprietary reconstruction attack method targeting CLIP-based distributed machine learning architecture. Specifically, MIP can reconstruct CLIP training images according to the gradients of soft prompts or an adapter. In addition, MIP includes a label prediction strategy to accelerate convergence and an inverse gradient estimation mechanism to avoid the vanishing gradient problem on the text encoder. Experimental results show that MIP can effectively reconstruct training images according to the gradients of soft prompts or adapters of CLIP models.
Abstract（参考訳）: 効果的な事前学習型マルチモーダルニューラルネットワークとしてのコントラスト言語-画像事前学習(CLIP)モデルは、分散機械学習タスク、特にフェデレートラーニング(FL)で広く利用されている。通常、CLIPベースのFLはモデルトレーニングにパラメータ効率の良いファインチューニング(PEFT)を採用する。 PEFTは従来のトレーニングモードとは異なるが,本稿では,アダプタやソフトプロンプトの勾配を画像再構成攻撃に使用することができることを理論的に分析する。理論解析に基づいて,CLIPをベースとした分散機械学習アーキテクチャを対象とした独自の再構成攻撃手法であるMultm-In-Parvo(MIP)を提案する。特に、MIPはソフトプロンプトやアダプタの勾配に応じてCLIPトレーニングイメージを再構成することができる。さらに、MIPは収束を加速するラベル予測戦略と、テキストエンコーダの消失勾配問題を回避する逆勾配推定機構を含む。実験の結果,MIPはCLIPモデルのソフトプロンプトやアダプタの勾配に応じて,トレーニングイメージを効果的に再構築できることがわかった。

関連論文リスト

In-Context Learning for Gradient-Free Receiver Adaptation: Principles, Applications, and Theory [54.92893355284945]
ディープラーニングベースの無線受信機は、様々なチャネル環境に動的に適応する能力を提供する。ジョイントトレーニング、ハイパーネットワークベースの手法、メタラーニングを含む現在の適応戦略は、限られた柔軟性を示すか、勾配降下による明示的な最適化を必要とする。本稿では、インコンテキスト学習(ICL)の新たなパラダイムに根ざした勾配なし適応手法を提案する。
論文参考訳（メタデータ） (2025-06-18T06:43:55Z)
Implicit Inversion turns CLIP into a Decoder [15.428694454730541]
画像合成はCLIPだけで可能であり、デコーダ、トレーニング、微調整は不要である。提案手法は,ネットワーク層間を階層化することで,粗大から粗大な生成を促進する,周波数認識型暗黙的ニューラル表現を最適化する。 CLIPの重みを変更することなく、このフレームワークはテキスト・ツー・イメージ生成、スタイル転送、イメージ再構成などの機能をアンロックする。
論文参考訳（メタデータ） (2025-05-29T06:55:26Z)
DeeCLIP: A Robust and Generalizable Transformer-Based Framework for Detecting AI-Generated Images [14.448350657613368]
DeeCLIPはAI生成画像を検出するための新しいフレームワークである。 DeeFuserは、高レベルと低レベルの機能を組み合わせたフュージョンモジュールである。 4クラスのProGANデータのみをトレーニングし,平均精度は89.90%に達した。
論文参考訳（メタデータ） (2025-04-28T15:06:28Z)
ELIP: Enhanced Visual-Language Foundation Models for Image Retrieval [83.01358520910533]
本稿では,大規模な事前学習型視覚キュレーションモデルの性能向上を目的とした新しいフレームワークを提案する。 ELIP(Enhanced Language- Image Pre-training)と呼ばれるこのアプローチでは、単純なマッピングネットワークを通じてテキストクエリを使用して、視覚的なプロンプトのセットを予測する。 ELIPは一般的なCLIP、SigLIP、BLIP-2ネットワークに容易に適用できる。
論文参考訳（メタデータ） (2025-02-21T18:59:57Z)
CALLIC: Content Adaptive Learning for Lossless Image Compression [64.47244912937204]
CALLICは、学習したロスレス画像圧縮のための新しい最先端(SOTA)を設定する。本稿では,畳み込みゲーティング操作を利用したコンテンツ認識型自己回帰自己保持機構を提案する。エンコーディング中、低ランク行列を用いて深度の畳み込みを含む事前学習層を分解し、レート誘導プログレッシブファインタニング(RPFT)による画像検査にインクリメンタルウェイトを適応させる。推定エントロピーにより下位順にソートされたパッチを徐々に増加させたRPFTファインチューン,学習過程の最適化,適応時間の短縮を実現した。
論文参考訳（メタデータ） (2024-12-23T10:41:18Z)
CLIP-MoE: Towards Building Mixture of Experts for CLIP with Diversified Multiplet Upcycling [21.734200158914476]
コントラスト言語-画像事前学習(CLIP)はマルチモーダルインテリジェンスの基礎となっている。 DMUは、異なる特徴空間をキャプチャする一連のCLIPモデルを効率的に微調整する。様々なゼロショット検索、ゼロショット画像分類タスクにおけるCLIP-MoEの顕著な性能を示す実験を行った。
論文参考訳（メタデータ） (2024-09-28T09:28:51Z)
Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文参考訳（メタデータ） (2024-08-01T15:14:10Z)
MoPE-CLIP: Structured Pruning for Efficient Vision-Language Models with Module-wise Pruning Error Metric [57.3330687266266]
より小さな事前学習モデルを用いてCLIPモデルに等級に基づくプルーニングを適用すると、柔軟性が低下し、性能が低下することがわかった。 The Module-wise Pruning Error (MoPE) metric, we introduced a unified pruning framework for both pre-training and task-specific fine-tuning compression stage。
論文参考訳（メタデータ） (2024-03-12T17:24:26Z)
CLIP Guided Image-perceptive Prompt Learning for Image Enhancement [15.40368082025006]
コントラスト言語-画像事前学習(CLIP)ガイドプロンプト学習を提案する。私たちは、CLIPモデルを用いて、オリジナル画像とターゲット画像とを区別するためのイメージ知覚プロンプトを学習する。我々は,3種類のLUTの重みを拡張ネットワークとして予測するために,単純なベースラインを組み込むことにより,非常に単純なネットワークを導入する。
論文参考訳（メタデータ） (2023-11-07T12:36:20Z)
Imaging through multimode fibres with physical prior [3.174639607243348]
本稿では,物理支援,教師なし,学習に基づくファイバーイメージング手法を提案する。オンライン学習の再構築プロセスは、いくつかのスペックルパターンと未実装のターゲットのみを必要とする。提案手法はマルチモードファイバー画像の応用を拡大する可能性がある。
論文参考訳（メタデータ） (2023-11-06T12:46:29Z)
A Structured Pruning Algorithm for Model-based Deep Learning [8.09765408941809]
MBDLネットワークにおける最初の構造化プルーニングアルゴリズムとして,モデルベースディープラーニング(SPADE)のための構造化プルーニングアルゴリズムを提案する。本稿では,性能損失を最小限に抑えるために,分割されたMBDLネットワークを微調整する3つの戦略を提案する。以上の結果から,SPADEで刈り取ったMBDLモデルは,競争性能を維持しつつ,試験時間を大幅に高速化できることがわかった。
論文参考訳（メタデータ） (2023-11-03T16:05:51Z)
Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文参考訳（メタデータ） (2023-03-16T21:06:13Z)
Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文参考訳（メタデータ） (2022-10-07T03:52:27Z)
Multi-layer Clustering-based Residual Sparsifying Transform for Low-dose CT Image Reconstruction [11.011268090482575]
本稿では,X線CT(Computerd Tomography)再構成のためのネットワーク構造スペーシング変換学習手法を提案する。我々は, PWLS (Palalized weighted least squares) 再構成において, MCSTモデルを正規化器に配置することにより低用量CT再構成にMCSTモデルを適用した。シミュレーションの結果,PWLS-MCSTは従来のFBP法やEP正則化を用いたPWLSよりも画像再構成精度が高いことがわかった。
論文参考訳（メタデータ） (2022-03-22T09:38:41Z)
Perceptually Optimizing Deep Image Compression [53.705543593594285]
平均二乗誤差(MSE)と$ell_p$ノルムは、ニューラルネットワークの損失の測定で大きく支配されている。本稿では,定量的知覚モデルに対して,画像解析ネットワークを最適化するための異なるプロキシ手法を提案する。
論文参考訳（メタデータ） (2020-07-03T14:33:28Z)
Predictive Coding Approximates Backprop along Arbitrary Computation Graphs [68.8204255655161]
我々は、コア機械学習アーキテクチャを予測的符号化に翻訳する戦略を開発する。私たちのモデルは、挑戦的な機械学習ベンチマークのバックプロップと同等に機能します。本手法は,ニューラルネットワークに標準機械学習アルゴリズムを直接実装できる可能性を高める。
論文参考訳（メタデータ） (2020-06-07T15:35:47Z)
BP-DIP: A Backprojection based Deep Image Prior [49.375539602228415]
画像復元手法として, (i)Deep Image Prior (DIP) と (ii) バックプロジェクション (BP) の2つの手法を提案する。提案手法はBP-DIP(BP-DIP)と呼ばれ,高いPSNR値とより優れた推論実行時間を持つ通常のDIPよりも優れた性能を示す。
論文参考訳（メタデータ） (2020-03-11T17:09:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。