論文の概要: Diff-ICMH: Harmonizing Machine and Human Vision in Image Compression with Generative Prior
- arxiv url: http://arxiv.org/abs/2511.22549v1
- Date: Thu, 27 Nov 2025 15:32:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.62437
- Title: Diff-ICMH: Harmonizing Machine and Human Vision in Image Compression with Generative Prior
- Title(参考訳): Diff-ICMH:生成前の画像圧縮における調和マシンと人間の視覚
- Authors: Ruoyu Feng, Yunpeng Qi, Jinming Liu, Yixin Gao, Xin Li, Xin Jin, Zhibo Chen,
- Abstract要約: Diff-ICMHは画像圧縮における機械と人間の視覚の調和を目的とした画像圧縮フレームワークである。
生成前の先入観を活用して知覚的リアリズムを保証し、同時に意味的忠実性を保証する。
タスク固有の適応なしに、シングルストリームとビットストリームを通じて複数のインテリジェントタスクをサポートする。
- 参考スコア(独自算出の注目度): 22.215462919266425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image compression methods are usually optimized isolatedly for human perception or machine analysis tasks. We reveal fundamental commonalities between these objectives: preserving accurate semantic information is paramount, as it directly dictates the integrity of critical information for intelligent tasks and aids human understanding. Concurrently, enhanced perceptual quality not only improves visual appeal but also, by ensuring realistic image distributions, benefits semantic feature extraction for machine tasks. Based on this insight, we propose Diff-ICMH, a generative image compression framework aiming for harmonizing machine and human vision in image compression. It ensures perceptual realism by leveraging generative priors and simultaneously guarantees semantic fidelity through the incorporation of Semantic Consistency loss (SC loss) during training. Additionally, we introduce the Tag Guidance Module (TGM) that leverages highly semantic image-level tags to stimulate the pre-trained diffusion model's generative capabilities, requiring minimal additional bit rates. Consequently, Diff-ICMH supports multiple intelligent tasks through a single codec and bitstream without any task-specific adaptation, while preserving high-quality visual experience for human perception. Extensive experimental results demonstrate Diff-ICMH's superiority and generalizability across diverse tasks, while maintaining visual appeal for human perception. Code is available at: https://github.com/RuoyuFeng/Diff-ICMH.
- Abstract(参考訳): 画像圧縮法は通常、人間の知覚や機械分析タスクのために孤立的に最適化される。
正確な意味情報の保存は最重要であり、知的タスクに対する重要な情報の完全性を直接規定し、人間の理解を支援する。
同時に、視覚的魅力の向上だけでなく、現実的なイメージ分布の確保によって、マシンタスクのセマンティックな特徴抽出にもメリットがある。
この知見に基づいて,画像圧縮における機械と人間の視覚の調和を目的とした生成画像圧縮フレームワークDiff-ICMHを提案する。
生成的先行性を活用することによって知覚的リアリズムを保証し、トレーニング中に意味的一貫性喪失(SC損失)を組み込むことによって意味的忠実性を同時に保証する。
さらに,Tag Guidance Module (TGM)を導入し,高意味的な画像レベルのタグを利用して,事前学習した拡散モデルの生成能力を刺激し,ビットレートを最小化する。
その結果、Diff-ICMHはタスク固有の適応なしに単一のコーデックとビットストリームを通じて複数のインテリジェントタスクをサポートし、人間の知覚に対する高品質な視覚体験を保っている。
Diff-ICMHの視覚的魅力を維持しつつ、多種多様なタスクにまたがる優越性と一般化性を示す大規模な実験結果が得られた。
コードは、https://github.com/RuoyuFeng/Diff-ICMH.comで入手できる。
関連論文リスト
- Machines Serve Human: A Novel Variable Human-machine Collaborative Compression Framework [54.49297832630979]
我々は,機械ビジョン指向圧縮に基づく新しい協調圧縮手法による最初の試みを行った。
コンピュータビジョンタスクのために、プラグアンドプレイの可変ビットレート戦略も開発されている。
本稿では,人間の視覚の高忠実度の詳細を復元する前に,機械ビジョン圧縮から意味を段階的に集約し,拡散をシームレスに調整することを提案する。
論文 参考訳(メタデータ) (2025-11-12T02:50:22Z) - Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。
HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文 参考訳(メタデータ) (2025-03-27T20:50:38Z) - Guided Diffusion for the Extension of Machine Vision to Human Visual Perception [0.0]
誘導拡散を用いた人間の視覚知覚にマシンビジョンを拡張させる手法を提案する。
誘導拡散は、マシンビジョンと人間の知覚の間のブリッジとして機能し、追加のオーバーヘッドなしにそれらの間の遷移を可能にする。
論文 参考訳(メタデータ) (2025-03-23T03:04:26Z) - Semantics Disentanglement and Composition for Versatile Codec toward both Human-eye Perception and Machine Vision Task [47.7670923159071]
本研究は,人間の目知覚と機械視タスクを同時に強化する革新的セマンティックス Disentanglement と COmposition versatile (DISCOVER) を導入する。
このアプローチはタスク毎のラベルの集合をマルチモーダルな大モデルで導き出し、グラウンドモデルを用いて正確なローカライズを行い、エンコーダ側の画像成分の包括的理解とアンタングル化を可能にする。
復号段階では、これらの符号化されたコンポーネントを生成モデルから先行して活用することにより、画像の総合的な再構成を実現し、人間の視覚知覚とマシンベースの分析タスクの両方のパフォーマンスを最適化する。
論文 参考訳(メタデータ) (2024-12-24T04:32:36Z) - Predicting Satisfied User and Machine Ratio for Compressed Images: A Unified Approach [58.71009078356928]
圧縮画像のSUR(Satified User Ratio)とSMR(Satified Machine Ratio)を同時に予測するディープラーニングモデルを構築した。
実験結果から,提案手法は最先端SURおよびSMR予測法より有意に優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-12-23T11:09:30Z) - Scalable Face Image Coding via StyleGAN Prior: Towards Compression for
Human-Machine Collaborative Vision [39.50768518548343]
先進的な生成先行から導かれる階層的表現が、人間と機械の協調的なビジョンのための効率的なスケーラブルなコーディングパラダイムの構築をいかに促進するかを考察する。
キーとなる洞察は、StyleGANを前もって活用することで、階層的な意味論を符号化する3層表現を学習できるということです。
マルチタスクのスケーラブルな速度歪み目標に基づいて,提案手法を協調的に最適化し,最適解析性能,人間の知覚経験,圧縮比を実現する。
論文 参考訳(メタデータ) (2023-12-25T05:57:23Z) - Video Coding for Machine: Compact Visual Representation Compression for
Intelligent Collaborative Analytics [101.35754364753409]
Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジすることを約束している。
本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。
論文 参考訳(メタデータ) (2021-10-18T12:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。