Fugu-MT 論文翻訳(概要): An Efficient Adaptive Compression Method for Human Perception and Machine Vision Tasks

論文の概要: An Efficient Adaptive Compression Method for Human Perception and Machine Vision Tasks

arxiv url: http://arxiv.org/abs/2501.04329v1
Date: Wed, 08 Jan 2025 08:03:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-09 16:10:19.580485
Title: An Efficient Adaptive Compression Method for Human Perception and Machine Vision Tasks
Title（参考訳）: 人間の知覚と機械ビジョンの効率的な適応圧縮法
Authors: Lei Liu, Zhenghao Chen, Zhihao Hu, Dong Xu,
Abstract要約: 本稿では,人間の知覚と複数のマシンビジョンのタスクに適した適応圧縮(EAC)手法を提案する。本手法は、人間の視覚の質を維持しつつ、複数のマシンビジョンタスクの性能を向上させる。
参考スコア（独自算出の注目度）: 27.318182211122558
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While most existing neural image compression (NIC) and neural video compression (NVC) methodologies have achieved remarkable success, their optimization is primarily focused on human visual perception. However, with the rapid development of artificial intelligence, many images and videos will be used for various machine vision tasks. Consequently, such existing compression methodologies cannot achieve competitive performance in machine vision. In this work, we introduce an efficient adaptive compression (EAC) method tailored for both human perception and multiple machine vision tasks. Our method involves two key modules: 1), an adaptive compression mechanism, that adaptively selects several subsets from latent features to balance the optimizations for multiple machine vision tasks (e.g., segmentation, and detection) and human vision. 2), a task-specific adapter, that uses the parameter-efficient delta-tuning strategy to stimulate the comprehensive downstream analytical networks for specific machine vision tasks. By using the above two modules, we can optimize the bit-rate costs and improve machine vision performance. In general, our proposed EAC can seamlessly integrate with existing NIC (i.e., Ball\'e2018, and Cheng2020) and NVC (i.e., DVC, and FVC) methods. Extensive evaluation on various benchmark datasets (i.e., VOC2007, ILSVRC2012, VOC2012, COCO, UCF101, and DAVIS) shows that our method enhances performance for multiple machine vision tasks while maintaining the quality of human vision.
Abstract（参考訳）: 既存のニューラル画像圧縮(NIC)とニューラルビデオ圧縮(NVC)の手法は大きな成功を収めているが、その最適化は主に人間の視覚知覚に焦点を当てている。しかし、人工知能の急速な発展に伴い、多くの画像やビデオが様々なマシンビジョンタスクに使用されることになる。そのため、既存の圧縮手法では、マシンビジョンにおける競合性能は達成できない。本研究では、人間の知覚と複数のマシンビジョンタスクの両方に適合した効率的な適応圧縮(EAC)手法を提案する。提案手法は,1) 適応圧縮機構,2) 適応圧縮機構で,複数のマシンビジョンタスク(例えば,セグメンテーション,検出)と人間のビジョンの最適化のバランスをとるために,潜在機能から複数のサブセットを適応的に選択する。パラメータ効率の高いデルタチューニング戦略を用いて、特定のマシンビジョンタスクのための包括的な下流分析ネットワークを刺激するタスク固有アダプタである。上記の2つのモジュールを使うことで、ビットレートコストを最適化し、マシンビジョンの性能を向上させることができる。提案するERCは,既存のNIC(Ball\'e2018,Cheng2020)およびNVC(DVC,FVC)メソッドとシームレスに統合可能である。様々なベンチマークデータセット(VOC2007, ILSVRC2012, VOC2012, COCO, UCF101, DAVIS)の広範囲な評価結果から,人間の視覚の質を維持しつつ,複数のマシンビジョンタスクのパフォーマンスを向上させることが示唆された。

関連論文リスト

AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition [21.989922235835067]
AdaptVisionは、粗いアプローチによる適応的な視覚トークン取得を可能にする効率的なVLMパラダイムである。本稿では,AdaptVisionが最先端のVLM手法よりもはるかに少ない視覚トークンを消費し,優れた性能を実現することを示す。
論文参考訳（メタデータ） (2025-12-03T13:43:30Z)
Chain-of-Focus: Adaptive Visual Search and Zooming for Multimodal Reasoning via RL [70.1326027641056]
視覚言語モデル(VLM)は、様々なコンピュータビジョンタスクにおいて印象的な性能を達成している。本稿では,キー画像領域に適応的な焦点付けとズームインを行うことができるChain-of-Focus(CoF)手法を提案する。教師付き微調整と強化学習を含む2段階の訓練パイプラインを提案する。
論文参考訳（メタデータ） (2025-05-21T12:18:15Z)
DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文参考訳（メタデータ） (2025-04-23T18:38:18Z)
All-in-One Transferring Image Compression from Human Perception to Multi-Machine Perception [33.05779778716361]
既存のアプローチは、通常、単一のタスクに対して、非効率でタスク間の相互作用が欠如し、複数のタスク固有のビットストリームが生じる、ダウンストリームタスクにlicを適応させる。本稿では,事前学習したベースを統一モデルと単一学習プロセスを介して,複数のマシンビジョンタスクに転送可能なマルチタスク適応フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-17T15:06:52Z)
Unified Coding for Both Human Perception and Generalized Machine Analytics with CLIP Supervision [44.5080084219247]
本稿では、マルチモーダル事前学習モデルを導入し、人間の視覚知覚とマシンビジョンを同時にサポートする適応型多目的最適化を1ビットストリームで実現する。提案したUnified and Generalized Image Coding for Machine (UG-ICM) は、さまざまな未確認マシン分析タスクにおいて顕著な改善を実現することができる。
論文参考訳（メタデータ） (2025-01-08T15:48:30Z)
Semantics Disentanglement and Composition for Versatile Codec toward both Human-eye Perception and Machine Vision Task [47.7670923159071]
本研究は,人間の目知覚と機械視タスクを同時に強化する革新的セマンティックス Disentanglement と COmposition versatile (DISCOVER) を導入する。このアプローチはタスク毎のラベルの集合をマルチモーダルな大モデルで導き出し、グラウンドモデルを用いて正確なローカライズを行い、エンコーダ側の画像成分の包括的理解とアンタングル化を可能にする。復号段階では、これらの符号化されたコンポーネントを生成モデルから先行して活用することにより、画像の総合的な再構成を実現し、人間の視覚知覚とマシンベースの分析タスクの両方のパフォーマンスを最適化する。
論文参考訳（メタデータ） (2024-12-24T04:32:36Z)
Visual Cue Enhancement and Dual Low-Rank Adaptation for Efficient Visual Instruction Fine-Tuning [102.18178065928426]
VCE(Vision Cue Enhancement)とDual-LoRA(Dual-LoRA)の2つの新しいアプローチによる効率的な微調整フレームワークを提案する。 VCEは、マルチレベルビジュアルキューを統合することで、視覚プロジェクタを強化し、きめ細かい視覚的特徴をキャプチャするモデルの能力を向上させる。 Dual-LoRAは、命令チューニングのための2つの低ランク構造を導入し、スキルとタスク空間に学習を分離し、様々なタスクにまたがって正確な制御と効率的な適応を可能にする。
論文参考訳（メタデータ） (2024-11-19T11:03:09Z)
All-in-One Image Coding for Joint Human-Machine Vision with Multi-Path Aggregation [28.62276713652864]
我々は,人間の共同ビジョンのための既存の符号化モデルにMPA(Multi-Path Aggregation)を統合することを提案する。 MPAはタスク固有のパスに遅延特徴を割り当てるために予測器を使用する。 MPAはタスク特化最適化と多目的最適化の両方において最先端の手法に匹敵する性能を達成する。
論文参考訳（メタデータ） (2024-09-29T11:14:21Z)
VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。 VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。 ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文参考訳（メタデータ） (2024-01-15T17:28:37Z)
Scalable Face Image Coding via StyleGAN Prior: Towards Compression for Human-Machine Collaborative Vision [39.50768518548343]
先進的な生成先行から導かれる階層的表現が、人間と機械の協調的なビジョンのための効率的なスケーラブルなコーディングパラダイムの構築をいかに促進するかを考察する。キーとなる洞察は、StyleGANを前もって活用することで、階層的な意味論を符号化する3層表現を学習できるということです。マルチタスクのスケーラブルな速度歪み目標に基づいて,提案手法を協調的に最適化し,最適解析性能,人間の知覚経験,圧縮比を実現する。
論文参考訳（メタデータ） (2023-12-25T05:57:23Z)
VNVC: A Versatile Neural Video Coding Framework for Efficient Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文参考訳（メタデータ） (2023-06-19T03:04:57Z)
Video Coding for Machine: Compact Visual Representation Compression for Intelligent Collaborative Analytics [101.35754364753409]
Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジすることを約束している。本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。
論文参考訳（メタデータ） (2021-10-18T12:42:13Z)
Optimization-Inspired Learning with Architecture Augmentations and Control Mechanisms for Low-Level Vision [74.9260745577362]
本稿では,GDC(Generative, Discriminative, and Corrective)の原則を集約する,最適化に着想を得た統合学習フレームワークを提案する。フレキシブルな組み合わせで最適化モデルを効果的に解くために,3つのプロパゲーティブモジュールを構築した。低レベル視覚タスクにおける実験は、GDCの有効性と適応性を検証する。
論文参考訳（メタデータ） (2020-12-10T03:24:53Z)
An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文参考訳（メタデータ） (2020-01-09T14:18:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。