論文の概要: An Efficient Adaptive Compression Method for Human Perception and Machine Vision Tasks
- arxiv url: http://arxiv.org/abs/2501.04329v1
- Date: Wed, 08 Jan 2025 08:03:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:56:01.703889
- Title: An Efficient Adaptive Compression Method for Human Perception and Machine Vision Tasks
- Title(参考訳): 人間の知覚と機械ビジョンの効率的な適応圧縮法
- Authors: Lei Liu, Zhenghao Chen, Zhihao Hu, Dong Xu,
- Abstract要約: 本稿では,人間の知覚と複数のマシンビジョンのタスクに適した適応圧縮(EAC)手法を提案する。
本手法は、人間の視覚の質を維持しつつ、複数のマシンビジョンタスクの性能を向上させる。
- 参考スコア(独自算出の注目度): 27.318182211122558
- License:
- Abstract: While most existing neural image compression (NIC) and neural video compression (NVC) methodologies have achieved remarkable success, their optimization is primarily focused on human visual perception. However, with the rapid development of artificial intelligence, many images and videos will be used for various machine vision tasks. Consequently, such existing compression methodologies cannot achieve competitive performance in machine vision. In this work, we introduce an efficient adaptive compression (EAC) method tailored for both human perception and multiple machine vision tasks. Our method involves two key modules: 1), an adaptive compression mechanism, that adaptively selects several subsets from latent features to balance the optimizations for multiple machine vision tasks (e.g., segmentation, and detection) and human vision. 2), a task-specific adapter, that uses the parameter-efficient delta-tuning strategy to stimulate the comprehensive downstream analytical networks for specific machine vision tasks. By using the above two modules, we can optimize the bit-rate costs and improve machine vision performance. In general, our proposed EAC can seamlessly integrate with existing NIC (i.e., Ball\'e2018, and Cheng2020) and NVC (i.e., DVC, and FVC) methods. Extensive evaluation on various benchmark datasets (i.e., VOC2007, ILSVRC2012, VOC2012, COCO, UCF101, and DAVIS) shows that our method enhances performance for multiple machine vision tasks while maintaining the quality of human vision.
- Abstract(参考訳): 既存のニューラル画像圧縮(NIC)とニューラルビデオ圧縮(NVC)の手法は大きな成功を収めているが、その最適化は主に人間の視覚知覚に焦点を当てている。
しかし、人工知能の急速な発展に伴い、多くの画像やビデオが様々なマシンビジョンタスクに使用されることになる。
そのため、既存の圧縮手法では、マシンビジョンにおける競合性能は達成できない。
本研究では、人間の知覚と複数のマシンビジョンタスクの両方に適合した効率的な適応圧縮(EAC)手法を提案する。
提案手法は,1) 適応圧縮機構,2) 適応圧縮機構で,複数のマシンビジョンタスク(例えば,セグメンテーション,検出)と人間のビジョンの最適化のバランスをとるために,潜在機能から複数のサブセットを適応的に選択する。
パラメータ効率の高いデルタチューニング戦略を用いて、特定のマシンビジョンタスクのための包括的な下流分析ネットワークを刺激するタスク固有アダプタである。
上記の2つのモジュールを使うことで、ビットレートコストを最適化し、マシンビジョンの性能を向上させることができる。
提案するERCは,既存のNIC(Ball\'e2018,Cheng2020)およびNVC(DVC,FVC)メソッドとシームレスに統合可能である。
様々なベンチマークデータセット(VOC2007, ILSVRC2012, VOC2012, COCO, UCF101, DAVIS)の広範囲な評価結果から,人間の視覚の質を維持しつつ,複数のマシンビジョンタスクのパフォーマンスを向上させることが示唆された。
関連論文リスト
- Unified Coding for Both Human Perception and Generalized Machine Analytics with CLIP Supervision [44.5080084219247]
本稿では、マルチモーダル事前学習モデルを導入し、人間の視覚知覚とマシンビジョンを同時にサポートする適応型多目的最適化を1ビットストリームで実現する。
提案したUnified and Generalized Image Coding for Machine (UG-ICM) は、さまざまな未確認マシン分析タスクにおいて顕著な改善を実現することができる。
論文 参考訳(メタデータ) (2025-01-08T15:48:30Z) - Semantics Disentanglement and Composition for Versatile Codec toward both Human-eye Perception and Machine Vision Task [47.7670923159071]
本研究は,人間の目知覚と機械視タスクを同時に強化する革新的セマンティックス Disentanglement と COmposition versatile (DISCOVER) を導入する。
このアプローチはタスク毎のラベルの集合をマルチモーダルな大モデルで導き出し、グラウンドモデルを用いて正確なローカライズを行い、エンコーダ側の画像成分の包括的理解とアンタングル化を可能にする。
復号段階では、これらの符号化されたコンポーネントを生成モデルから先行して活用することにより、画像の総合的な再構成を実現し、人間の視覚知覚とマシンベースの分析タスクの両方のパフォーマンスを最適化する。
論文 参考訳(メタデータ) (2024-12-24T04:32:36Z) - Visual Cue Enhancement and Dual Low-Rank Adaptation for Efficient Visual Instruction Fine-Tuning [102.18178065928426]
VCE(Vision Cue Enhancement)とDual-LoRA(Dual-LoRA)の2つの新しいアプローチによる効率的な微調整フレームワークを提案する。
VCEは、マルチレベルビジュアルキューを統合することで、視覚プロジェクタを強化し、きめ細かい視覚的特徴をキャプチャするモデルの能力を向上させる。
Dual-LoRAは、命令チューニングのための2つの低ランク構造を導入し、スキルとタスク空間に学習を分離し、様々なタスクにまたがって正確な制御と効率的な適応を可能にする。
論文 参考訳(メタデータ) (2024-11-19T11:03:09Z) - All-in-One Image Coding for Joint Human-Machine Vision with Multi-Path Aggregation [28.62276713652864]
我々は,人間の共同ビジョンのための既存の符号化モデルにMPA(Multi-Path Aggregation)を統合することを提案する。
MPAはタスク固有のパスに遅延特徴を割り当てるために予測器を使用する。
MPAはタスク特化最適化と多目的最適化の両方において最先端の手法に匹敵する性能を達成する。
論文 参考訳(メタデータ) (2024-09-29T11:14:21Z) - VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。
VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。
ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文 参考訳(メタデータ) (2024-01-15T17:28:37Z) - Scalable Face Image Coding via StyleGAN Prior: Towards Compression for
Human-Machine Collaborative Vision [39.50768518548343]
先進的な生成先行から導かれる階層的表現が、人間と機械の協調的なビジョンのための効率的なスケーラブルなコーディングパラダイムの構築をいかに促進するかを考察する。
キーとなる洞察は、StyleGANを前もって活用することで、階層的な意味論を符号化する3層表現を学習できるということです。
マルチタスクのスケーラブルな速度歪み目標に基づいて,提案手法を協調的に最適化し,最適解析性能,人間の知覚経験,圧縮比を実現する。
論文 参考訳(メタデータ) (2023-12-25T05:57:23Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - Video Coding for Machine: Compact Visual Representation Compression for
Intelligent Collaborative Analytics [101.35754364753409]
Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジすることを約束している。
本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。
論文 参考訳(メタデータ) (2021-10-18T12:42:13Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。