論文の概要: LL-ICM: Image Compression for Low-level Machine Vision via Large Vision-Language Model
- arxiv url: http://arxiv.org/abs/2412.03841v1
- Date: Thu, 05 Dec 2024 03:12:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:42:25.177898
- Title: LL-ICM: Image Compression for Low-level Machine Vision via Large Vision-Language Model
- Title(参考訳): LL-ICM:大視野モデルによる低レベルマシンビジョンの画像圧縮
- Authors: Yuan Xue, Qi Zhang, Chuanmin Jia, Shiqi Wang,
- Abstract要約: 画像復元モデルのような低レベル(LL)マシンビジョンモデルは、そのような品質を改善するのに役立つ。
LLマシンビジョンタスク,すなわちLL-ICMのための先駆的なICMフレームワークを提案する。
LL-ICMは最先端手法よりも22.65%のBDレート削減が可能である。
- 参考スコア(独自算出の注目度): 23.5599937903766
- License:
- Abstract: Image Compression for Machines (ICM) aims to compress images for machine vision tasks rather than human viewing. Current works predominantly concentrate on high-level tasks like object detection and semantic segmentation. However, the quality of original images is usually not guaranteed in the real world, leading to even worse perceptual quality or downstream task performance after compression. Low-level (LL) machine vision models, like image restoration models, can help improve such quality, and thereby their compression requirements should also be considered. In this paper, we propose a pioneered ICM framework for LL machine vision tasks, namely LL-ICM. By jointly optimizing compression and LL tasks, the proposed LL-ICM not only enriches its encoding ability in generalizing to versatile LL tasks but also optimizes the processing ability of down-stream LL task models, achieving mutual adaptation for image codecs and LL task models. Furthermore, we integrate large-scale vision-language models into the LL-ICM framework to generate more universal and distortion-robust feature embeddings for LL vision tasks. Therefore, one LL-ICM codec can generalize to multiple tasks. We establish a solid benchmark to evaluate LL-ICM, which includes extensive objective experiments by using both full and no-reference image quality assessments. Experimental results show that LL-ICM can achieve 22.65% BD-rate reductions over the state-of-the-art methods.
- Abstract(参考訳): Image Compression for Machines (ICM) は、人間の視界ではなく、マシンビジョンタスクのために画像を圧縮することを目的としている。
現在の作業は主にオブジェクト検出やセマンティックセグメンテーションといった高度なタスクに集中しています。
しかし、オリジナルの画像の品質は通常、現実世界では保証されないため、圧縮後の知覚的品質や下流タスクのパフォーマンスはさらに悪化する。
画像復元モデルのような低レベル(LL)マシンビジョンモデルは、そのような品質を改善するのに役立つため、圧縮要求も考慮する必要がある。
本稿では,LL マシンビジョンタスク,すなわち LL-ICM のための先駆的な ICM フレームワークを提案する。
LL-ICMは圧縮タスクとLLタスクを協調的に最適化することにより、汎用LLタスクに一般化するエンコーディング能力を向上するだけでなく、下流のLLタスクモデルの処理能力を最適化し、画像コーデックとLLタスクモデルの相互適応を実現する。
さらに、大規模視覚言語モデルをLL-ICMフレームワークに統合し、LLビジョンタスクのためのより普遍的で歪みの多い特徴埋め込みを生成する。
したがって、1つのLL-ICMコーデックは複数のタスクに一般化できる。
LL-ICMの評価には,全画像品質評価と非参照画像品質評価の両方を用いて,広範囲な客観的実験を含む,確固たるベンチマークを確立する。
実験結果から, LL-ICMは最先端法よりも22.65%のBDレートを低減できることがわかった。
関連論文リスト
- InterLCM: Low-Quality Images as Intermediate States of Latent Consistency Models for Effective Blind Face Restoration [106.70903819362402]
拡散前駆体は、低画質画像の復元のために、復元データセットの微細調整拡散モデル(DM)によってブラインドフェイス復元(BFR)に使用されている。
我々は,その優れたセマンティック一貫性と効率のために潜在一貫性モデル(LCM)を活用するために,InterLCMを提案する。
InterLCMは、合成データセットと実世界のデータセットの両方において既存のアプローチより優れており、推論速度も高速である。
論文 参考訳(メタデータ) (2025-02-04T10:51:20Z) - Unified Coding for Both Human Perception and Generalized Machine Analytics with CLIP Supervision [44.5080084219247]
本稿では、マルチモーダル事前学習モデルを導入し、人間の視覚知覚とマシンビジョンを同時にサポートする適応型多目的最適化を1ビットストリームで実現する。
提案したUnified and Generalized Image Coding for Machine (UG-ICM) は、さまざまな未確認マシン分析タスクにおいて顕著な改善を実現することができる。
論文 参考訳(メタデータ) (2025-01-08T15:48:30Z) - Bridging Compressed Image Latents and Multimodal Large Language Models [45.83457913639876]
本稿では、下流視覚タスクのニーズに合うように圧縮画像ラテントを適応させる最初の研究について述べる。
MLLMは、大規模な言語モデルの成功をテキスト以外のモダリティにまで拡大してきたが、その数十億ドルのスケールは、リソースに制約のあるエンドデバイスへのデプロイメントを妨げる。
本稿では,MLLMに基づく視覚タスクに対して,軽量なトランスフォーメーションネックとサロゲート損失を用いた圧縮画像ラテントを適応させる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-29T02:32:44Z) - High Efficiency Image Compression for Large Visual-Language Models [14.484831372497437]
大規模視覚言語モデル(LVLM)は、マルチモーダルタスクにおいて優れた性能と有望な一般化能力を示している。
本稿では,事前編集モジュールとエンドツーエンドから構成される可変画像圧縮フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-24T07:37:12Z) - CMC-Bench: Towards a New Paradigm of Visual Signal Compression [85.1839779884282]
本稿では,画像圧縮のための画像間テキスト(I2T)モデルとテキスト間画像(T2I)モデルの協調性能のベンチマークであるCMC-Benchを紹介する。
超低速では、いくつかのI2TモデルとT2Iモデルの組み合わせが、最も先進的な視覚信号プロトコルを超えたことが証明されている。
論文 参考訳(メタデータ) (2024-06-13T17:41:37Z) - Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。
そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文 参考訳(メタデータ) (2024-03-12T04:13:45Z) - LCM-LoRA: A Universal Stable-Diffusion Acceleration Module [52.8517132452467]
LCM(Latent Consistency Models)は、テキストから画像への生成タスクの高速化において、優れたパフォーマンスを実現している。
本報告はLRA蒸留を大型の安定拡散モデルに適用することによりLCMの可能性をさらに拡張する。
LCM蒸留により得られたLoRAパラメータを LCM-LoRA という汎用安定拡散加速モジュールとして同定した。
論文 参考訳(メタデータ) (2023-11-09T18:04:15Z) - Prompt-ICM: A Unified Framework towards Image Coding for Machines with
Task-driven Prompts [27.119835579428816]
機械用画像符号化(ICM)は、人間の知覚ではなく、下流のAI分析をサポートするために画像を圧縮することを目的としている。
近年の大規模事前学習モデルから下流タスクへの移行に触発されて,新しいICMフレームワークであるPrompt-ICMを探索する。
提案手法は,情報セレクタによって予測される重要マップとして実装された圧縮プロンプトと,下流の異なるタスクに応じて圧縮中に異なるコンテンツ重み付けビット割り当てを実現するための2つのコア設計からなる。
論文 参考訳(メタデータ) (2023-05-04T06:21:10Z) - Image Coding for Machines with Omnipotent Feature Learning [45.36372374739911]
Image Coding for Machines (ICM)は、人間の知覚を満たすのではなく、AIタスク分析のための画像を圧縮することを目的としている。
我々は圧縮も考慮しながら普遍的な特徴を学習し,IMMフレームワークを開発する。
我々は、全能的な機能やそれに対応するフレームワークをOmni-ICMと命名する。
論文 参考訳(メタデータ) (2022-07-05T10:13:11Z) - Video Coding for Machine: Compact Visual Representation Compression for
Intelligent Collaborative Analytics [101.35754364753409]
Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジすることを約束している。
本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。
論文 参考訳(メタデータ) (2021-10-18T12:42:13Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。