論文の概要: Clip4Retrofit: Enabling Real-Time Image Labeling on Edge Devices via Cross-Architecture CLIP Distillation
- arxiv url: http://arxiv.org/abs/2505.18039v1
- Date: Fri, 23 May 2025 15:42:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.202573
- Title: Clip4Retrofit: Enabling Real-Time Image Labeling on Edge Devices via Cross-Architecture CLIP Distillation
- Title(参考訳): Clip4Retrofit: クロスアーキテクチャCLIP蒸留によるエッジデバイス上でのリアルタイムイメージラベリングの実現
- Authors: Li Zhong, Ahmed Ghazal, Jun-Jun Wan, Frederik Zilly, Patrick Mackens, Joachim E. Vollrath, Bogdan Sorin Coseriu,
- Abstract要約: Clip4Retrofitは、エッジデバイス上でリアルタイムな画像ラベリングを可能にする効率的なモデル蒸留フレームワークである。
このフレームワークは、数千台の車両に改造された費用対効果の高いエッジデバイスであるRetrofitカメラに展開されている。
この作業は、最先端のビジョン言語モデルとリソース制約された環境への展開のギャップを埋める。
- 参考スコア(独自算出の注目度): 1.5181915291533354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models like CLIP (Contrastive Language-Image Pretraining) have revolutionized vision-language tasks by enabling zero-shot and few-shot learning through cross-modal alignment. However, their computational complexity and large memory footprint make them unsuitable for deployment on resource-constrained edge devices, such as in-car cameras used for image collection and real-time processing. To address this challenge, we propose Clip4Retrofit, an efficient model distillation framework that enables real-time image labeling on edge devices. The framework is deployed on the Retrofit camera, a cost-effective edge device retrofitted into thousands of vehicles, despite strict limitations on compute performance and memory. Our approach distills the knowledge of the CLIP model into a lightweight student model, combining EfficientNet-B3 with multi-layer perceptron (MLP) projection heads to preserve cross-modal alignment while significantly reducing computational requirements. We demonstrate that our distilled model achieves a balance between efficiency and performance, making it ideal for deployment in real-world scenarios. Experimental results show that Clip4Retrofit can perform real-time image labeling and object identification on edge devices with limited resources, offering a practical solution for applications such as autonomous driving and retrofitting existing systems. This work bridges the gap between state-of-the-art vision-language models and their deployment in resource-constrained environments, paving the way for broader adoption of foundation models in edge computing.
- Abstract(参考訳): CLIP(Contrastive Language-Image Pretraining)のようなファンデーションモデルは、モーダルアライメントを通じてゼロショットと少数ショットの学習を可能にすることで、視覚言語タスクに革命をもたらした。
しかし、その計算複雑性と大きなメモリフットプリントは、画像収集やリアルタイム処理に使用される車載カメラのようなリソース制約のあるエッジデバイスへの展開には適さない。
この課題に対処するために,エッジデバイス上でリアルタイムな画像ラベリングを可能にする効率的なモデル蒸留フレームワークであるClip4Retrofitを提案する。
このフレームワークは、計算性能とメモリに制限があるにもかかわらず、数千台の車両に改造された費用対効果の高いエッジデバイスであるRetrofitカメラに展開されている。
提案手法では,CLIPモデルの知識を軽量な学生モデルに抽出し,多層パーセプトロン(MLP)プロジェクションヘッドとEfficientNet-B3を組み合わせることにより,クロスモーダルアライメントを維持しつつ,計算要求を大幅に削減する。
我々は,蒸留モデルが効率と性能のバランスを保ち,実世界のシナリオでの展開に最適であることを実証した。
実験の結果、Clip4Retrofitは限られたリソースを持つエッジデバイス上でリアルタイムのイメージラベリングやオブジェクト識別を行うことができ、自律運転や既存システムの再適合といったアプリケーションに実用的なソリューションを提供することが示された。
この作業は、最先端のビジョン言語モデルとリソース制約のある環境への展開のギャップを埋め、エッジコンピューティングにおける基盤モデルの採用を拡大する。
関連論文リスト
- Federated Learning of Low-Rank One-Shot Image Detection Models in Edge Devices with Scalable Accuracy and Compute Complexity [5.820612543019548]
LoRa-FLは、エッジデバイスにデプロイされた低ランクのワンショット画像検出モデルをトレーニングするために設計された。
低ランク適応手法をワンショット検出アーキテクチャに組み込むことで,計算と通信のオーバーヘッドを大幅に低減する。
論文 参考訳(メタデータ) (2025-04-23T08:40:44Z) - PolygoNet: Leveraging Simplified Polygonal Representation for Effective Image Classification [6.3286311412189304]
本稿では,優越点や輪郭座標を用いた画像の多角形表現を効果的に活用する手法を提案する。
本手法は, 計算要求を大幅に削減し, 訓練を加速し, 資源を保存する。
ベンチマークデータセットの実験は、複雑性を減らし、一般化を改善し、エッジコンピューティングアプリケーションを容易にするためのアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2025-04-01T22:05:00Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - EPNet: An Efficient Pyramid Network for Enhanced Single-Image
Super-Resolution with Reduced Computational Requirements [12.439807086123983]
シングルイメージ超解像(SISR)は、ディープラーニングの統合によって大幅に進歩した。
本稿では,エッジ分割ピラミッドモジュール (ESPM) とパノラマ特徴抽出モジュール (PFEM) を調和して結合し,既存の手法の限界を克服する,EPNet (Efficient Pyramid Network) を提案する。
論文 参考訳(メタデータ) (2023-12-20T19:56:53Z) - Searching a Compact Architecture for Robust Multi-Exposure Image Fusion [55.37210629454589]
2つの大きなスタブリングブロックは、画素の不一致や非効率な推論など、開発を妨げる。
本研究では,高機能なマルチ露光画像融合のための自己アライメントとディテールリプレクションモジュールを取り入れたアーキテクチャ検索に基づくパラダイムを提案する。
提案手法は様々な競争方式より優れており、一般的なシナリオではPSNRが3.19%向上し、不整合シナリオでは23.5%向上した。
論文 参考訳(メタデータ) (2023-05-20T17:01:52Z) - Rethinking Range View Representation for LiDAR Segmentation [66.73116059734788]
「多対一」マッピング、意味的不整合、形状変形は、射程射影からの効果的な学習に対する障害となる可能性がある。
RangeFormerは、ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含む、フルサイクルのフレームワークである。
比較対象のLiDARセマンティックスとパノプティックスセグメンテーションのベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。
論文 参考訳(メタデータ) (2023-03-09T16:13:27Z) - Efficient Image Captioning for Edge Devices [8.724184244203892]
リソース制限されたデバイスのための軽量画像キャプタであるLightCapを提案する。
コア設計は、画像キャプションを効率的にするための最近のCLIPモデルに基づいている。
慎重に設計されたアーキテクチャでは、モデルのサイズを75%以上、FLOPを98%以上削減するパラメータが40万以上しか含まれていない。
論文 参考訳(メタデータ) (2022-12-18T01:56:33Z) - Fast Image-Anomaly Mitigation for Autonomous Mobile Robots [27.049498074025088]
雨やほこりのようなカメラの異常は、画像の品質と関連するタスクを著しく低下させる可能性がある。
本研究では,これらのアーティファクトをリアルタイムに効果的に緩和する前処理ステップを実装することで,この問題に対処する。
論文 参考訳(メタデータ) (2021-09-04T15:39:42Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。