論文の概要: Unleashing MLLMs on the Edge: A Unified Framework for Cross-Modal ReID via Adaptive SVD Distillation
- arxiv url: http://arxiv.org/abs/2602.12936v1
- Date: Fri, 13 Feb 2026 13:48:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.971606
- Title: Unleashing MLLMs on the Edge: A Unified Framework for Cross-Modal ReID via Adaptive SVD Distillation
- Title(参考訳): エッジ上のMLLMの解放:適応SVD蒸留によるクロスモーダルReIDの統一フレームワーク
- Authors: Hongbo Jiang, Jie Li, Xinqi Cai, Tianyu Xie, Yunhang Shen, Pingyang Dai, Liujuan Cao,
- Abstract要約: CM-ReID(Cross-Modal Re-identification)は、特別なクラウドモデルの断片化されたエコシステムを維持するため、課題に直面している。
我々は,強力なクラウドエッジアーキテクチャに基づく統一フレームワークであるMLLMEmbed-ReIDを提案する。
- 参考スコア(独自算出の注目度): 48.88299242238335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Practical cloud-edge deployment of Cross-Modal Re-identification (CM-ReID) faces challenges due to maintaining a fragmented ecosystem of specialized cloud models for diverse modalities. While Multi-Modal Large Language Models (MLLMs) offer strong unification potential, existing approaches fail to adapt them into a single end-to-end backbone and lack effective knowledge distillation strategies for edge deployment. To address these limitations, we propose MLLMEmbed-ReID, a unified framework based on a powerful cloud-edge architecture. First, we adapt a foundational MLLM into a state-of-the-art cloud model. We leverage instruction-based prompting to guide the MLLM in generating a unified embedding space across RGB, infrared, sketch, and text modalities. This model is then trained efficiently with a hierarchical Low-Rank Adaptation finetuning (LoRA-SFT) strategy, optimized under a holistic cross-modal alignment objective. Second, to deploy its knowledge onto an edge-native student, we introduce a novel distillation strategy motivated by the low-rank property in the teacher's feature space. To prioritize essential information, this method employs a Principal Component Mapping loss, while relational structures are preserved via a Feature Relation loss. Our lightweight edge-based model achieves state-of-the-art performance on multiple visual CM-ReID benchmarks, while its cloud-based counterpart excels across all CM-ReID benchmarks. The MLLMEmbed-ReID framework thus presents a complete and effective solution for deploying unified MLLM-level intelligence on resource-constrained devices. The code and models will be open-sourced soon.
- Abstract(参考訳): CM-ReID(Cross-Modal Re-identification)の実践的なクラウドエッジデプロイメントは、さまざまなモダリティのための特別なクラウドモデルの断片化されたエコシステムを維持するという課題に直面している。
MLLM(Multi-Modal Large Language Models)は強力な統合可能性を提供しますが、既存のアプローチでは、それらを単一のエンドツーエンドのバックボーンに適合させることができず、エッジデプロイメントのための効果的な知識蒸留戦略が欠如しています。
これらの制約に対処するため,強力なクラウドエッジアーキテクチャに基づく統一フレームワークであるMLLMEmbed-ReIDを提案する。
まず、基礎となるMLLMを最先端のクラウドモデルに適合させる。
命令ベースのプロンプトを利用してMLLMを誘導し、RGB、赤外線、スケッチ、テキストモダリティにまたがる統一的な埋め込み空間を生成する。
このモデルは、階層的低ランク適応微調整(LoRA-SFT)戦略で効率よく訓練され、全体的相互モーダルアライメントの目的の下で最適化される。
第二に、その知識をエッジネイティブな学生に展開するために、教師の特徴空間における低ランク性に動機づけられた新しい蒸留戦略を導入する。
本手法では,主成分マッピングの損失を優先し,特徴関係の損失を通じて関係構造を保存する。
当社の軽量エッジベースモデルでは,複数のビジュアルCM-ReIDベンチマークで最先端のパフォーマンスを実現していますが,クラウドベースのベンチマークはすべてのCM-ReIDベンチマークで優れています。
したがって、MLLMEmbed-ReIDフレームワークは、リソース制約されたデバイスに統一MLLMレベルのインテリジェンスをデプロイするための完全かつ効果的なソリューションを提供する。
コードとモデルは近くオープンソース化される。
関連論文リスト
- Refer-Agent: A Collaborative Multi-Agent System with Reasoning and Reflection for Referring Video Object Segmentation [50.22481337087162]
Referring Video Object (RVOS) は、テキストクエリに基づくビデオ内のオブジェクトのセグメンテーションを目的としている。
Refer-Agent (Refer-Agent) は、共用多エージェントシステムである。
論文 参考訳(メタデータ) (2026-02-03T14:48:12Z) - AIVD: Adaptive Edge-Cloud Collaboration for Accurate and Efficient Industrial Visual Detection [15.419663374345845]
本稿では,高精度な局所化と高品質なセマンティック生成を実現するためのAIVDフレームワークを提案する。
エッジトリミングボックスノイズとシナリオ変動に対するクラウドMLLMのロバスト性を高めるため,我々は効率的な微調整戦略を設計する。
異種エッジデバイスと動的ネットワーク条件間の高いスループットと低レイテンシを維持するため,異種リソースを考慮した動的スケジューリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-01-08T08:56:07Z) - SoliReward: Mitigating Susceptibility to Reward Hacking and Annotation Noise in Video Generation Reward Models [53.19726629537694]
ビデオ生成モデルと人間の好みのトレーニング後のアライメントは、重要な目標である。
現在のデータ収集パラダイムは、プロンプト内のペアワイズアノテーションに依存しており、ノイズのラベル付けに悩まされている。
ビデオRMトレーニングのための体系的フレームワークであるSoliRewardを提案する。
論文 参考訳(メタデータ) (2025-12-17T14:28:23Z) - A Structure-Agnostic Co-Tuning Framework for LLMs and SLMs in Cloud-Edge Systems [20.267719677908683]
Co-PLMsは、大規模および小規模言語モデルの協調トレーニングのための新しいフレームワークである。
構造に依存しない相互学習のプロセスを統合し、異種言語モデル間の知識交換を実現する。
その結果、Co-PLMsは最先端の手法より優れており、Roge-Lでは平均5.38%、EMでは4.88%の上昇を達成している。
論文 参考訳(メタデータ) (2025-11-12T01:16:17Z) - RECALL: REpresentation-aligned Catastrophic-forgetting ALLeviation via Hierarchical Model Merging [33.22889542330089]
大規模言語モデル(LLM)の内部表現は、学習知識の信頼できるプロキシとして機能する。
本稿では,過去データにアクセスせずに連続的な学習を行うための表現認識モデル統合フレームワークRECALLを提案する。
論文 参考訳(メタデータ) (2025-10-23T12:17:37Z) - LLM-I: LLMs are Naturally Interleaved Multimodal Creators [24.64752837827959]
LLM-Interleaved (LLM-I) は、ツールユース問題としてインターリーブド画像テキスト生成を再設計するフレキシブルで動的フレームワークである。
我々のフレームワークは、中央のLLMエージェントやMLLMエージェントに、特殊な視覚ツールの多種多様なツールキットをインテリジェントにオーケストレーションする権限を与えます。
LLM-Iは最先端のパフォーマンスを実証し、4つのベンチマークで既存の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2025-09-17T02:33:29Z) - Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。
評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文 参考訳(メタデータ) (2025-03-27T08:52:41Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。