論文の概要: Image Coding for Machines with Edge Information Learning Using Segment Anything
- arxiv url: http://arxiv.org/abs/2403.04173v2
- Date: Thu, 30 May 2024 13:38:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 20:44:52.606197
- Title: Image Coding for Machines with Edge Information Learning Using Segment Anything
- Title(参考訳): セグメント情報を用いたエッジ情報学習マシンの画像符号化
- Authors: Takahiro Shindo, Kein Yamada, Taiju Watanabe, Hiroshi Watanabe,
- Abstract要約: 画像中の対象部品のエッジ情報のみを符号化・復号化することに焦点を当てたICMの手法を提案する。
これは、Segment Anythingによって生成されたエッジ情報を使用してトレーニングされた、学習された画像圧縮(lic)モデルである。
画像認識のための画像圧縮において,SA-ICMが最高の性能を示すことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image Coding for Machines (ICM) is an image compression technique for image recognition. This technique is essential due to the growing demand for image recognition AI. In this paper, we propose a method for ICM that focuses on encoding and decoding only the edge information of object parts in an image, which we call SA-ICM. This is an Learned Image Compression (LIC) model trained using edge information created by Segment Anything. Our method can be used for image recognition models with various tasks. SA-ICM is also robust to changes in input data, making it effective for a variety of use cases. Additionally, our method provides benefits from a privacy point of view, as it removes human facial information on the encoder's side, thus protecting one's privacy. Furthermore, this LIC model training method can be used to train Neural Representations for Videos (NeRV), which is a video compression model. By training NeRV using edge information created by Segment Anything, it is possible to create a NeRV that is effective for image recognition (SA-NeRV). Experimental results confirm the advantages of SA-ICM, presenting the best performance in image compression for image recognition. We also show that SA-NeRV is superior to ordinary NeRV in video compression for machines.
- Abstract(参考訳): Image Coding for Machines (ICM) は画像認識のための画像圧縮技術である。
この技術は、画像認識AIの需要が高まっているため、不可欠である。
本稿では,SA-ICMと呼ぶ画像中の対象部分のエッジ情報のみを符号化・復号するICMの手法を提案する。
これは、Segment Anythingによって生成されたエッジ情報を使用してトレーニングされた、学習された画像圧縮(lic)モデルである。
本手法は,様々なタスクを持つ画像認識モデルに利用できる。
SA-ICMは入力データの変更にも堅牢で、さまざまなユースケースで有効です。
さらに,エンコーダ側の顔情報を取り除き,ユーザのプライバシーを保護することにより,プライバシーの観点からのメリットを提供する。
さらに、ビデオ圧縮モデルであるNeRV(Neural Representations for Videos)のトレーニングにも使用できる。
Segment Anythingによって生成されたエッジ情報を用いてNeRVをトレーニングすることにより、画像認識(SA-NeRV)に有効なNeRVを作成することができる。
実験により,SA-ICMの利点が確認され,画像認識に最適な画像圧縮性能が得られた。
また,SA-NeRVはビデオ圧縮において通常のNeRVよりも優れていることを示す。
関連論文リスト
- Attack GAN (AGAN ): A new Security Evaluation Tool for Perceptual Encryption [1.6385815610837167]
最先端(SOTA)ディープラーニングモデルのトレーニングには大量のデータが必要である。
知覚暗号化は、イメージを認識不能なフォーマットに変換して、トレーニングデータ内のセンシティブな視覚情報を保護する。
これは、モデルの精度を大幅に下げるコストが伴う。
Adversarial Visual Information Hiding (AVIH)は、人間の目には認識できない暗号化された画像を作成することによって、画像のプライバシを保護するために、この欠点を克服する。
論文 参考訳(メタデータ) (2024-07-09T06:03:32Z) - CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Image Coding for Machines with Object Region Learning [0.0]
対象領域を学習する画像圧縮モデルを提案する。
私たちのモデルはROIマップのような入力として追加情報を必要としておらず、タスクロスを使用しません。
論文 参考訳(メタデータ) (2023-08-27T01:54:03Z) - Masked Autoencoders are Efficient Class Incremental Learners [64.90846899051164]
クラスインクリメンタルラーニング(CIL)は,過去の知識の破滅的な忘れを回避しつつ,新しいクラスを逐次学習することを目的としている。
本稿では,CIL の学習に Masked Autoencoders (MAEs) を用いることを提案する。
論文 参考訳(メタデータ) (2023-08-24T02:49:30Z) - VVC Extension Scheme for Object Detection Using Contrast Reduction [0.0]
Versatile Video Coding (VVC) を用いたオブジェクト検出のためのビデオ符号化の拡張方式を提案する。
提案方式では,元の画像のサイズとコントラストを小さくし,VVCエンコーダで符号化して高圧縮性能を実現する。
実験結果から,提案手法はオブジェクト検出精度の点で,通常のVVCよりも優れた符号化性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-30T06:29:04Z) - CNeRV: Content-adaptive Neural Representation for Visual Data [54.99373641890767]
本稿では、自動エンコーダの一般化性と暗黙的表現の単純さとコンパクトさを組み合わせた、コンテンツ適応型埋め込み(CNeRV)によるニューラルビジュアル表現を提案する。
我々は、トレーニング中にスキップされたフレーム(見えない画像)をはるかに上回りながら、トレーニング中に見られるフレームの再構築作業において、最先端の暗黙のニューラル表現であるNERVのパフォーマンスを一致させる。
同じ遅延コード長と類似のモデルサイズで、CNeRVは、見えていない画像と見えない画像の両方の再構成においてオートエンコーダより優れている。
論文 参考訳(メタデータ) (2022-11-18T18:35:43Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - A New Image Codec Paradigm for Human and Machine Uses [53.48873918537017]
本研究では,人間用と機械用の両方にスケーラブルな画像パラダイムを提案する。
高レベルのインスタンスセグメンテーションマップと低レベルの信号特徴をニューラルネットワークで抽出する。
画像は16ビットのグレースケールプロファイルと信号特徴を持つ一般的な画質のイメージ再構成を実現するために設計および訓練される。
論文 参考訳(メタデータ) (2021-12-19T06:17:38Z) - Enhanced Invertible Encoding for Learned Image Compression [40.21904131503064]
本稿では,改良されたインバーチブルを提案する。
非可逆ニューラルネットワーク(INN)によるネットワークは、情報損失問題を大幅に軽減し、圧縮性を向上する。
Kodak, CLIC, Tecnick のデータセットによる実験結果から,本手法は既存の学習画像圧縮法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-08-08T17:32:10Z) - Discernible Image Compression [124.08063151879173]
本稿では、外観と知覚の整合性の両方を追求し、圧縮画像を作成することを目的とする。
エンコーダ・デコーダ・フレームワークに基づいて,事前学習したCNNを用いて,オリジナル画像と圧縮画像の特徴を抽出する。
ベンチマーク実験により,提案手法を用いて圧縮した画像は,その後の視覚認識・検出モデルでもよく認識できることが示された。
論文 参考訳(メタデータ) (2020-02-17T07:35:08Z) - Deep Image Compression using Decoder Side Information [23.237308265907377]
本稿では,デコーダでのみ利用できるサイド情報に依存するディープイメージ圧縮ニューラルネットワークを提案する。
提案アルゴリズムを複数の画像圧縮アルゴリズムと比較し,デコーダのみの側情報の追加が結果を改善することを示す。
論文 参考訳(メタデータ) (2020-01-14T12:55:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。