論文の概要: ROI-Packing: Efficient Region-Based Compression for Machine Vision
- arxiv url: http://arxiv.org/abs/2512.09258v1
- Date: Wed, 10 Dec 2025 02:29:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.36766
- Title: ROI-Packing: Efficient Region-Based Compression for Machine Vision
- Title(参考訳): ROI-Packing: マシンビジョンのための効率的な領域ベースの圧縮
- Authors: Md Eimran Hossain Eimon, Alena Krause, Ashan Perera, Juan Merlos, Hari Kalva, Velibor Adzic, Borko Furht,
- Abstract要約: ROI-Packingは、マシンビジョンに特化した効率的な画像圧縮手法である。
エンドタスクモデルの再トレーニングや微調整を必要とせずに、大幅な圧縮効率を実現する。
- 参考スコア(独自算出の注目度): 0.7847426782527166
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper introduces ROI-Packing, an efficient image compression method tailored specifically for machine vision. By prioritizing regions of interest (ROI) critical to end-task accuracy and packing them efficiently while discarding less relevant data, ROI-Packing achieves significant compression efficiency without requiring retraining or fine-tuning of end-task models. Comprehensive evaluations across five datasets and two popular tasks-object detection and instance segmentation-demonstrate up to a 44.10% reduction in bitrate without compromising end-task accuracy, along with an 8.88 % improvement in accuracy at the same bitrate compared to the state-of-the-art Versatile Video Coding (VVC) codec standardized by the Moving Picture Experts Group (MPEG).
- Abstract(参考訳): 本稿では,マシンビジョンに特化した効率的な画像圧縮手法であるROI-Packingを紹介する。
エンドタスク精度に重要な関心領域(ROI)を優先順位付けし、少ない関連データを破棄しながら効率的にパッケージすることで、ROI-Packingは、エンドタスクモデルのトレーニングや微調整を必要とせずに、大幅な圧縮効率を達成する。
5つのデータセットと2つの一般的なタスクオブジェクト検出とインスタンスセグメンテーション-デモレートの総合的な評価は、エンドタスク精度を損なうことなく44.10%のビットレート削減を実現し、また、移動画像専門家グループ(MPEG)が標準化したVVCコーデックと比較して8.88%の精度向上を実現した。
関連論文リスト
- Efficient Feature Compression for Machines with Global Statistics Preservation [5.113857098394778]
本稿では,Zスコア正規化を用いてデコーダ側の圧縮特徴データを効率よく復元する。
本手法は,現在開発中の標準規格で使用されている既存のスケーリング手法に取って代わるものである。
実験の結果,提案手法を用いることで,各タスクの平均17.09%,物体追跡の65.69%を削減できることがわかった。
論文 参考訳(メタデータ) (2025-12-10T01:51:34Z) - ROI-based Deep Image Compression with Implicit Bit Allocation [15.62284701009422]
関心領域(ROI)に基づく画像圧縮は、重要な領域で高い忠実性を維持する能力によって急速に発展してきた。
既存の圧縮方法は、量子化前に背景情報を抑圧するためにマスクを適用している。
本研究は,暗黙的ビット割り当てを伴うROIに基づく効率的な深部画像圧縮モデルを提案する。
論文 参考訳(メタデータ) (2025-11-12T02:55:18Z) - VRAE: Vertical Residual Autoencoder for License Plate Denoising and Deblurring [2.1639459844313564]
劣化した画像を高速にリアルタイムに復元することは、認識性能を高めるための重要な前処理ステップである。
本研究では,交通監視における画像強調作業のための垂直残差オートエンコーダアーキテクチャを提案する。
可視光プレートを用いた車両画像データセット実験により,本手法がAutoencoder(AE),Generative Adversarial Network(GAN),Flow-Based(FB)アプローチを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-09-10T08:35:21Z) - PRISM: Distributed Inference for Foundation Models at Edge [73.54372283220444]
PRISMは、エッジデバイス上での分散トランスフォーマー推論のための通信効率と計算アウェア戦略である。
ViT,BERT,GPT-2のPRISMを多種多様なデータセットで評価した。
論文 参考訳(メタデータ) (2025-07-16T11:25:03Z) - Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。
本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-03-30T14:23:18Z) - RL-RC-DoT: A Block-level RL agent for Task-Aware Video Compression [68.31184784672227]
自律運転のような現代的なアプリケーションでは、圧倒的多数のビデオがタスクを実行するAIシステムの入力として機能する。
したがって、画像の品質ではなく、下流タスクのためにエンコーダを最適化することが有用である。
ここでは、下流タスクを最適化するために、マクロブロックレベルで量子化パラメータ(QP)を制御することで、この問題に対処する。
論文 参考訳(メタデータ) (2025-01-21T15:36:08Z) - Once for Both: Single Stage of Importance and Sparsity Search for Vision Transformer Compression [63.23578860867408]
重要度評価と疎度評価を1段階にまとめる方法について検討する。
重要度と疎度の両方を同時に評価するコスト効率の高いOFBを提案する。
実験により、OFBは最先端のサーチベースおよびプルーニングベース手法よりも優れた圧縮性能が得られることが示された。
論文 参考訳(メタデータ) (2024-03-23T13:22:36Z) - Improving Image Coding for Machines through Optimizing Encoder via Auxiliary Loss [2.9687381456164004]
機械用画像符号化(ICM)は、人間の視覚ではなく認識モデルを用いて、機械分析のための画像を圧縮することを目的としている。
そこで本研究では,エンコーダに補助損失を付与し,その認識能力と速度歪み性能を向上させるための新しいICMモデルのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-02-13T07:45:25Z) - You Can Mask More For Extremely Low-Bitrate Image Compression [80.7692466922499]
近年,学習画像圧縮(lic)法は大きな進歩を遂げている。
licメソッドは、画像圧縮に不可欠な画像構造とテクスチャコンポーネントを明示的に探索することができない。
原画像の構造とテクスチャに基づいて可視パッチをサンプリングするDA-Maskを提案する。
極めて低ビットレート圧縮のために, lic と lic のエンドツーエンドを統一する最初のフレームワークである, 単純で効果的なマスク付き圧縮モデル (MCM) を提案する。
論文 参考訳(メタデータ) (2023-06-27T15:36:22Z) - TACTIC: Joint Rate-Distortion-Accuracy Optimisation for Low Bitrate
Compression [28.88113725832339]
TACTIC: インテリジェントコーディングによるタスク認識圧縮。
我々の損失圧縮モデルは、特定のタスクに対するレート歪み精度トレードオフに基づいて学習する。
我々はImageNetサブセット分類の精度を4.5%向上させることができる。
論文 参考訳(メタデータ) (2021-09-22T11:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。