論文の概要: Unified Coding for Both Human Perception and Generalized Machine Analytics with CLIP Supervision
- arxiv url: http://arxiv.org/abs/2501.04579v1
- Date: Wed, 08 Jan 2025 15:48:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:55:11.678117
- Title: Unified Coding for Both Human Perception and Generalized Machine Analytics with CLIP Supervision
- Title(参考訳): CLIPスーパービジョンによる人間知覚と汎用機械分析の統一符号化
- Authors: Kangsheng Yin, Quan Liu, Xuelin Shen, Yulin He, Wenhan Yang, Shiqi Wang,
- Abstract要約: 本稿では、マルチモーダル事前学習モデルを導入し、人間の視覚知覚とマシンビジョンを同時にサポートする適応型多目的最適化を1ビットストリームで実現する。
提案したUnified and Generalized Image Coding for Machine (UG-ICM) は、さまざまな未確認マシン分析タスクにおいて顕著な改善を実現することができる。
- 参考スコア(独自算出の注目度): 44.5080084219247
- License:
- Abstract: The image compression model has long struggled with adaptability and generalization, as the decoded bitstream typically serves only human or machine needs and fails to preserve information for unseen visual tasks. Therefore, this paper innovatively introduces supervision obtained from multimodal pre-training models and incorporates adaptive multi-objective optimization tailored to support both human visual perception and machine vision simultaneously with a single bitstream, denoted as Unified and Generalized Image Coding for Machine (UG-ICM). Specifically, to get rid of the reliance between compression models with downstream task supervision, we introduce Contrastive Language-Image Pre-training (CLIP) models into the training constraint for improved generalization. Global-to-instance-wise CLIP supervision is applied to help obtain hierarchical semantics that make models more generalizable for the tasks relying on the information of different granularity. Furthermore, for supporting both human and machine visions with only a unifying bitstream, we incorporate a conditional decoding strategy that takes as conditions human or machine preferences, enabling the bitstream to be decoded into different versions for corresponding preferences. As such, our proposed UG-ICM is fully trained in a self-supervised manner, i.e., without awareness of any specific downstream models and tasks. The extensive experiments have shown that the proposed UG-ICM is capable of achieving remarkable improvements in various unseen machine analytics tasks, while simultaneously providing perceptually satisfying images.
- Abstract(参考訳): 画像圧縮モデルは適応性と一般化に長年苦労してきたが、デコードされたビットストリームは一般的に人間やマシンのニーズのみに役立ち、目に見えない視覚的なタスクに関する情報を保存するのに失敗している。
そこで,本研究では,マルチモーダル事前学習モデルから得られた監督機構を革新的に導入し,人間の視覚認識とマシンビジョンの両方を同時にサポートするための適応的多目的最適化を,統一・一般化画像符号化(UG-ICM)として記述する。
具体的には、下流タスクの監督を伴う圧縮モデル間の依存を取り除くために、一般化を改善するための訓練制約にコントラスト言語-画像事前学習(CLIP)モデルを導入する。
グローバル・ツー・インスタンス・ワイドのCLIP監視は、異なる粒度の情報に依存するタスクに対してモデルをより一般化可能な階層的セマンティクスを得るのに役立つ。
さらに、人間と機械の両方のビジョンを統一したビットストリームのみでサポートするために、条件付きデコード戦略を組み込んで、人間の好みやマシンの好みに応じてビットストリームを異なるバージョンにデコードする。
したがって,提案するUG-ICMは,特定の下流モデルやタスクを意識せずに,自己指導型で完全に訓練されている。
広範にわたる実験により、提案したUG-ICMは、知覚的に満足な画像を提供しながら、様々な未知のマシン分析タスクにおいて顕著な改善を達成できることが示されている。
関連論文リスト
- Semantics Disentanglement and Composition for Versatile Codec toward both Human-eye Perception and Machine Vision Task [47.7670923159071]
本研究は,人間の目知覚と機械視タスクを同時に強化する革新的セマンティックス Disentanglement と COmposition versatile (DISCOVER) を導入する。
このアプローチはタスク毎のラベルの集合をマルチモーダルな大モデルで導き出し、グラウンドモデルを用いて正確なローカライズを行い、エンコーダ側の画像成分の包括的理解とアンタングル化を可能にする。
復号段階では、これらの符号化されたコンポーネントを生成モデルから先行して活用することにより、画像の総合的な再構成を実現し、人間の視覚知覚とマシンベースの分析タスクの両方のパフォーマンスを最適化する。
論文 参考訳(メタデータ) (2024-12-24T04:32:36Z) - Multimodal Autoregressive Pre-training of Large Vision Encoders [85.39154488397931]
本稿では,汎用視覚エンコーダのファミリーであるAIMV2について述べる。
エンコーダはマルチモーダル評価だけでなく,ローカライゼーションやグラウンド,分類といったビジョンベンチマークでも優れている。
論文 参考訳(メタデータ) (2024-11-21T18:31:25Z) - All-in-One Image Coding for Joint Human-Machine Vision with Multi-Path Aggregation [28.62276713652864]
我々は,人間の共同ビジョンのための既存の符号化モデルにMPA(Multi-Path Aggregation)を統合することを提案する。
MPAはタスク固有のパスに遅延特徴を割り当てるために予測器を使用する。
MPAはタスク特化最適化と多目的最適化の両方において最先端の手法に匹敵する性能を達成する。
論文 参考訳(メタデータ) (2024-09-29T11:14:21Z) - High Efficiency Image Compression for Large Visual-Language Models [14.484831372497437]
大規模視覚言語モデル(LVLM)は、マルチモーダルタスクにおいて優れた性能と有望な一般化能力を示している。
本稿では,事前編集モジュールとエンドツーエンドから構成される可変画像圧縮フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-24T07:37:12Z) - Scalable Face Image Coding via StyleGAN Prior: Towards Compression for
Human-Machine Collaborative Vision [39.50768518548343]
先進的な生成先行から導かれる階層的表現が、人間と機械の協調的なビジョンのための効率的なスケーラブルなコーディングパラダイムの構築をいかに促進するかを考察する。
キーとなる洞察は、StyleGANを前もって活用することで、階層的な意味論を符号化する3層表現を学習できるということです。
マルチタスクのスケーラブルな速度歪み目標に基づいて,提案手法を協調的に最適化し,最適解析性能,人間の知覚経験,圧縮比を実現する。
論文 参考訳(メタデータ) (2023-12-25T05:57:23Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - Image-specific Convolutional Kernel Modulation for Single Image
Super-resolution [85.09413241502209]
本稿では,新しい画像特異的畳み込み変調カーネル(IKM)を提案する。
我々は、画像や特徴のグローバルな文脈情報を利用して、畳み込みカーネルを適応的に調整するための注意重みを生成する。
単一画像超解像実験により,提案手法は最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-11-16T11:05:10Z) - Video Coding for Machine: Compact Visual Representation Compression for
Intelligent Collaborative Analytics [101.35754364753409]
Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジすることを約束している。
本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。
論文 参考訳(メタデータ) (2021-10-18T12:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。