論文の概要: When MLLMs Meet Compression Distortion: A Coding Paradigm Tailored to MLLMs
- arxiv url: http://arxiv.org/abs/2509.24258v1
- Date: Mon, 29 Sep 2025 04:07:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.736685
- Title: When MLLMs Meet Compression Distortion: A Coding Paradigm Tailored to MLLMs
- Title(参考訳): MLLMsが圧縮歪曲に出会ったとき:MLLMに敬意を表したプログラミングパラダイム
- Authors: Jinming Liu, Zhaoyang Jia, Jiahao Li, Bin Li, Xin Jin, Wenjun Zeng, Yan Lu,
- Abstract要約: マルチレベル特徴を適応的に保護し、下流タスクの異なる要求に適合するように設計されたMLLM(CoTAM)に適応した画像コーデックTAiloredを提案する。
MLLMタスクで同じ性能を維持しながら,最大35.99%の省力化を実現している。
- 参考スコア(独自算出の注目度): 38.29061845878822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing deployment of powerful Multimodal Large Language Models (MLLMs), typically hosted on cloud platforms, urgently requires effective compression techniques to efficiently transmit signal inputs (e.g., images, videos) from edge devices with minimal bandwidth usage. However, conventional image codecs are optimized for fidelity to serve the Human Visual System (HVS) and ill-suited for MLLMs, in which diverse downstream tasks are jointly considered. In this paper, we first systematically analyze the impact of compression artifacts on several mainstream MLLMs. We find that: Compression distortion unevenly impacts different-level image features, leading to varying effects on MLLMs' downstream tasks depending on their feature-level reliance. Motivated by this discovery, we propose an image Codec TAilored to MLLMs (CoTAM) designed to adaptively protect multi-level features and suit different demands of downstream tasks. The encoder leverages CLIP's shallow-layer attention to generate an importance map for bit allocation, preserving critical semantic regions. Concurrently, the decoder integrates a lightweight adapter with a multi-level loss function to ensure the faithful reconstruction both of low-level details and high-level semantic context for robust synthesis of cross-level features. Extensive experiments validate that our method achieves up to 35.99\% bitrate saving while maintaining the same performance on the MLLM tasks, outperforming previous SOTA neural codecs.
- Abstract(参考訳): クラウドプラットフォーム上でホストされる強力なマルチモーダル大規模言語モデル(MLLM)のデプロイの増加は、帯域幅が最小限のエッジデバイスから信号入力(画像、ビデオなど)を効率的に送信する効果的な圧縮技術に緊急に要求する。
しかし、従来の画像コーデックはヒューマン・ビジュアル・システム(HVS)に最適化されており、多様な下流タスクを共同で検討するMLLMに不適合である。
本稿では,まず,圧縮アーチファクトが主流MLLMに与える影響を系統的に分析する。
圧縮歪みは、異なるレベルの画像特徴に不均一に影響を及ぼし、特徴レベルの依存に応じて、MLLMの下流タスクに様々な影響を及ぼす。
この発見を動機として,マルチレベルの特徴を適応的に保護し,ダウンストリームタスクの異なる要求に適合するように設計された,MLLM(CoTAM)に変換されたCodec TAiloredの画像を提案する。
エンコーダはCLIPの浅い層に注意を払ってビット割り当ての重要マップを生成し、重要なセマンティック領域を保存する。
同時に、デコーダは軽量アダプタとマルチレベルロス関数を統合し、低レベルの詳細と高レベルセマンティックコンテキストの両方を忠実に再構築し、クロスレベル特徴の堅牢な合成を可能にする。
大規模な実験により,従来のSOTAニューラルコーデックよりも高い性能を保ちながら,最大35.99 %のビットレートを節約できることが確認された。
関連論文リスト
- FILA: Fine-Grained Vision Language Models [15.128058747088222]
HyViLMは、エンコーディング中に全体のコンテキストを保持しながら、任意の解像度の画像を処理するように設計されている。
同じ条件下での最先端のMLLMと比較して、HyViLMは既存のMLLMを10タスク中9タスクで上回ります。
論文 参考訳(メタデータ) (2024-12-11T13:41:21Z) - Mini-Monkey: Alleviating the Semantic Sawtooth Effect for Lightweight MLLMs via Complementary Image Pyramid [87.09900996643516]
本稿では,高分解能画像処理における意味的不連続性を軽減するための補完画像ピラミッド(CIP)を提案する。
また、冗長な視覚トークンを圧縮することにより、計算オーバーヘッドを増大させるスケール圧縮機構(SCM)を導入する。
我々の実験は、CIPが様々なアーキテクチャで継続的に性能を向上できることを示した。
論文 参考訳(メタデータ) (2024-08-04T13:55:58Z) - Bridging Compressed Image Latents and Multimodal Large Language Models [45.83457913639876]
本稿では、下流視覚タスクのニーズに合うように圧縮画像ラテントを適応させる最初の研究について述べる。
MLLMは、大規模な言語モデルの成功をテキスト以外のモダリティにまで拡大してきたが、その数十億ドルのスケールは、リソースに制約のあるエンドデバイスへのデプロイメントを妨げる。
本稿では,MLLMに基づく視覚タスクに対して,軽量なトランスフォーメーションネックとサロゲート損失を用いた圧縮画像ラテントを適応させる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-29T02:32:44Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。