論文の概要: Distilling Textual Priors from LLM to Efficient Image Fusion
- arxiv url: http://arxiv.org/abs/2504.07029v2
- Date: Mon, 14 Apr 2025 14:47:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 13:21:48.703202
- Title: Distilling Textual Priors from LLM to Efficient Image Fusion
- Title(参考訳): LLMから高効率画像融合へのテキスト優先の蒸留
- Authors: Ran Zhang, Xuanhua He, Ke Cao, Liu Liu, Li Zhang, Man Zhou, Jie Zhang,
- Abstract要約: マルチモダリティ画像融合は、複数のソース入力から単一の総合的なイメージを合成することを目的としている。
CNNやGANといった従来のアプローチは効率性を提供するが、低品質または複雑な入力を扱うのに苦労する。
テキスト誘導手法の最近の進歩は、これらの制限を克服するために大きなモデル事前を利用するが、かなりの計算オーバーヘッドを犠牲にしている。
そこで本研究では,モデルサイズを劇的に削減しつつ,推論中のテキストガイダンスの必要性を解消し,大規模モデル前駆体を蒸留する新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 21.691878602028144
- License:
- Abstract: Multi-modality image fusion aims to synthesize a single, comprehensive image from multiple source inputs. Traditional approaches, such as CNNs and GANs, offer efficiency but struggle to handle low-quality or complex inputs. Recent advances in text-guided methods leverage large model priors to overcome these limitations, but at the cost of significant computational overhead, both in memory and inference time. To address this challenge, we propose a novel framework for distilling large model priors, eliminating the need for text guidance during inference while dramatically reducing model size. Our framework utilizes a teacher-student architecture, where the teacher network incorporates large model priors and transfers this knowledge to a smaller student network via a tailored distillation process. Additionally, we introduce spatial-channel cross-fusion module to enhance the model's ability to leverage textual priors across both spatial and channel dimensions. Our method achieves a favorable trade-off between computational efficiency and fusion quality. The distilled network, requiring only 10% of the parameters and inference time of the teacher network, retains 90% of its performance and outperforms existing SOTA methods. Extensive experiments demonstrate the effectiveness of our approach. The implementation will be made publicly available as an open-source resource.
- Abstract(参考訳): マルチモダリティ画像融合は、複数のソース入力から単一の総合的なイメージを合成することを目的としている。
CNNやGANといった従来のアプローチは効率性を提供するが、低品質または複雑な入力を扱うのに苦労する。
テキスト誘導手法の最近の進歩は、これらの制限を克服するために、大きなモデル事前を利用するが、メモリと推論時間の両方において、計算オーバーヘッドがかなり大きい。
この課題に対処するため,モデルサイズを劇的に削減しつつ,推論中のテキストガイダンスの必要性を解消し,大規模モデル前駆体を蒸留する新しいフレームワークを提案する。
本フレームワークでは,教師ネットワークに大規模モデルの事前処理を組み込んで,その知識をより小規模な学生ネットワークに伝達する,教師学習型アーキテクチャを用いている。
さらに,空間次元とチャネル次元の両面において,テキストの先行性を活用するモデルの能力を高めるために,空間チャネル相互融合モジュールを導入する。
本手法は, 計算効率と融合品質のトレードオフを良好に達成する。
蒸留ネットワークは、教師ネットワークのパラメータと推論時間の10%しか必要とせず、その性能の90%を保持し、既存のSOTA法より優れている。
大規模な実験は、我々のアプローチの有効性を実証する。
実装はオープンソースリソースとして公開される予定だ。
関連論文リスト
- LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - E$^{2}$GAN: Efficient Training of Efficient GANs for Image-to-Image Translation [69.72194342962615]
拡散モデルからGANを蒸留するプロセスは、より効率的にできるのか?
まず、一般化された特徴を持つベースGANモデルを構築し、微調整により異なる概念に適応し、スクラッチからトレーニングの必要性を排除した。
第2に,ベースモデル全体の微調整を行うのではなく,低ランク適応(LoRA)を簡易かつ効果的なランク探索プロセスで行う。
第3に、微調整に必要な最小限のデータ量を調査し、トレーニング時間を短縮する。
論文 参考訳(メタデータ) (2024-01-11T18:59:14Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - MCAD: Multi-teacher Cross-modal Alignment Distillation for efficient image-text retrieval [7.233106731197739]
本稿では,MCAD(Multi-Teacher Cross-modality Alignment Distillation)手法を提案する。
Snapdragon/Dimensityチップ上での軽量CLIPモデルを実装し,動作メモリが$sim$100M,検索遅延が$sim$8.0msである。
論文 参考訳(メタデータ) (2023-10-30T15:38:43Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Guiding The Last Layer in Federated Learning with Pre-Trained Models [18.382057374270143]
フェデレートラーニング(FL)は、データを共有することなく、多数の参加者にまたがってモデルをトレーニングできる新興パラダイムである。
NCM(Nearest Class Means)を用いた分類ヘッドの適合は,既存の提案よりも正確に,桁違いに効率的に行えることを示す。
論文 参考訳(メタデータ) (2023-06-06T18:02:02Z) - Data-Efficient Ranking Distillation for Image Retrieval [15.88955427198763]
近年のアプローチでは、より深く重いアーキテクチャからより小さなネットワークへ知識を伝達するために、知識蒸留を用いてこの問題に対処している。
本稿では,計量学習問題に対する知識蒸留について述べる。
従来の手法とは違って,提案手法では,教師モデルに対する限定的なクエリ,最終出力表現へのアクセスを伴うブラックボックス教師モデル,および第3に,基本トラストラベルのないオリジナルトレーニングデータのごく一部に対処する。
論文 参考訳(メタデータ) (2020-07-10T10:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。