論文の概要: Multiscale Feature Importance-based Bit Allocation for End-to-End Feature Coding for Machines
- arxiv url: http://arxiv.org/abs/2503.19278v1
- Date: Tue, 25 Mar 2025 02:19:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:54:13.850669
- Title: Multiscale Feature Importance-based Bit Allocation for End-to-End Feature Coding for Machines
- Title(参考訳): マシンのエンド・ツー・エンド特徴符号化のためのマルチスケール特徴量に基づくビット割り当て
- Authors: Junle Liu, Yun Zhang, Zixi Guo,
- Abstract要約: Feature Coding for Machines (FCM)は、リモートインテリジェント分析のために中間機能を効果的に圧縮することを目的としている。
エンドツーエンドFCMのためのMFIBA(Multiscale Feature Importance-based Bit Allocation)を提案する。
- 参考スコア(独自算出の注目度): 2.5667927142354907
- License:
- Abstract: Feature Coding for Machines (FCM) aims to compress intermediate features effectively for remote intelligent analytics, which is crucial for future intelligent visual applications. In this paper, we propose a Multiscale Feature Importance-based Bit Allocation (MFIBA) for end-to-end FCM. First, we find that the importance of features for machine vision tasks varies with the scales, object size, and image instances. Based on this finding, we propose a Multiscale Feature Importance Prediction (MFIP) module to predict the importance weight for each scale of features. Secondly, we propose a task loss-rate model to establish the relationship between the task accuracy losses of using compressed features and the bitrate of encoding these features. Finally, we develop a MFIBA for end-to-end FCM, which is able to assign coding bits of multiscale features more reasonably based on their importance. Experimental results demonstrate that when combined with a retained Efficient Learned Image Compression (ELIC), the proposed MFIBA achieves an average of 38.202% bitrate savings in object detection compared to the anchor ELIC. Moreover, the proposed MFIBA achieves an average of 17.212% and 36.492% feature bitrate savings for instance segmentation and keypoint detection, respectively. When the proposed MFIBA is applied to the LIC-TCM, it achieves an average of 18.103%, 19.866% and 19.597% bit rate savings on three machine vision tasks, respectively, which validates the proposed MFIBA has good generalizability and adaptability to different machine vision tasks and FCM base codecs.
- Abstract(参考訳): FCM(Feature Coding for Machines)は、リモートインテリジェント分析のための中間機能を効果的に圧縮することを目的としている。
本稿では、エンドツーエンドFCMのためのMFIBA(Multiscale Feature Importance-based Bit Allocation)を提案する。
まず、マシンビジョンタスクにおける機能の重要性は、スケール、オブジェクトサイズ、イメージインスタンスによって異なります。
そこで本研究では,MFIP(Multiscale Feature Importance Prediction)モジュールを提案する。
第2に,圧縮特徴を用いたタスク精度損失とこれらの特徴を符号化するビットレートの関係を確立するためのタスク損失率モデルを提案する。
最後に, エンド・ツー・エンド FCM のための MFIBA を開発し, それらの重要度に基づいて, より合理的にマルチスケール機能の符号化ビットを割り当てることができる。
実験結果から, 保持された学習画像圧縮(ELIC)と組み合わせることで, MFIBAは, アンカーELICと比較して平均38.202%のビットレート保存が得られることがわかった。
さらに、提案したMFIBAは、それぞれ平均17.212%と36.492%のビットレート保存をインスタンスセグメンテーションとキーポイント検出のために達成している。
MFIBAがlic-TCMに適用されると、3つのマシンビジョンタスクに対して平均18.103%、19.866%、19.597%のビットレートの節約を達成する。
関連論文リスト
- Towards Economical Inference: Enabling DeepSeek's Multi-Head Latent Attention in Any Transformer-based LLMs [74.74225314708225]
MLA(Multi-head Latent Attention)は、効率的かつ経済的推論を保証するために設計された革新的なアーキテクチャである。
本稿では,マルチヘッドアテンションからMLAへの移行のための,データ効率の良いファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2025-02-20T18:50:42Z) - MALT: Multi-scale Action Learning Transformer for Online Action Detection [6.819772961626024]
オンラインアクション検出(OAD)は、将来的なフレームにアクセスすることなく、リアルタイムでストリーミングビデオから進行中のアクションを特定することを目的としている。
本稿では,新しいリカレントデコーダを備えたマルチスケール動作学習トランス (MALT) を提案する。
また、無関係なフレームをより効率的にフィルタリングするスパースアテンションを用いた明示的なフレームスコアリング機構も導入する。
論文 参考訳(メタデータ) (2024-05-31T15:03:35Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - Multi-scale Semantic Correlation Mining for Visible-Infrared Person
Re-Identification [19.49945790485511]
MSCMNetは、複数のスケールでセマンティック機能を包括的に活用するために提案されている。
特徴抽出において、モダリティ情報損失を可能な限り小さくする。
SYSU-MM01、RegDB、 LLCMデータセットの大規模な実験により、提案したMSCMNetが最も精度が高いことを示す。
論文 参考訳(メタデータ) (2023-11-24T10:23:57Z) - Tuning Pre-trained Model via Moment Probing [62.445281364055795]
本稿では,LP の可能性を探るため,新しい Moment Probing (MP) 法を提案する。
MPは、最終特徴の平均に基づいて線形分類ヘッドを実行する。
当社のMPはLPを著しく上回り、トレーニングコストの低い相手と競争しています。
論文 参考訳(メタデータ) (2023-07-21T04:15:02Z) - FedSDG-FS: Efficient and Secure Feature Selection for Vertical Federated
Learning [21.79965380400454]
Vertical Learning(VFL)は、複数のデータオーナに対して、大きな重複するデータサンプルセットに関する機能のサブセットをそれぞれ保持して、有用なグローバルモデルを共同でトレーニングすることを可能にする。
VFLのために設計された既存のFSは、ノイズの多い特徴の数について事前知識を仮定するか、有用な特徴の訓練後のしきい値について事前知識を仮定する。
本稿では,FedSDG-FS(Federated Dual-Gate Based Feature Selection)アプローチを提案する。
論文 参考訳(メタデータ) (2023-02-21T03:09:45Z) - SafeSpace MFNet: Precise and Efficient MultiFeature Drone Detection
Network [12.221253007423394]
MultiFeatureNet(MFNet)は、最も集中した特徴マップをキャプチャすることで特徴表現を強化するソリューションである。
MFNet-FAは入力特徴写像の異なるチャネルを適応的に重み付けする手法である。
フォーカスモジュールを用いたMFNet-L(Ablation study 2)は,最も顕著な分類結果を示す。
論文 参考訳(メタデータ) (2022-11-30T06:56:39Z) - Transformer-based Context Condensation for Boosting Feature Pyramids in
Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。
我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。
特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文 参考訳(メタデータ) (2022-07-14T01:45:03Z) - S$^2$-FPN: Scale-ware Strip Attention Guided Feature Pyramid Network for Real-time Semantic Segmentation [6.744210626403423]
本稿では,リアルタイム道路シーンセマンティックセグメンテーションにおける精度/速度のトレードオフを実現するための新しいモデルを提案する。
具体的には、スケール対応ストリップ注意誘導特徴ピラミッドネットワーク(S$2-FPN)という軽量モデルを提案する。
我々のネットワークは,アテンションピラミッドフュージョン(APF)モジュール,スケール対応ストリップアテンションモジュール(SSAM)モジュール,グローバルフィーチャーアップサンプル(GFU)モジュールの3つの主要モジュールで構成されている。
論文 参考訳(メタデータ) (2022-06-15T05:02:49Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - CARAFE++: Unified Content-Aware ReAssembly of FEatures [132.49582482421246]
この目標を達成するために、ユニバーサルで軽量で高効率なオペレータであるContent-Aware ReAssembly of FEatures(CARAFE++)を提案します。
CARAFE++は、インスタンス固有のコンテンツ認識処理を可能にするアダプティブカーネルをオンザフライで生成する。
計算のオーバーヘッドが無視できるすべてのタスクにおいて、一貫性と実質的な利益を示しています。
論文 参考訳(メタデータ) (2020-12-07T07:34:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。