論文の概要: Image Coding for Machines with Object Region Learning
- arxiv url: http://arxiv.org/abs/2308.13984v1
- Date: Sun, 27 Aug 2023 01:54:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 17:44:55.895660
- Title: Image Coding for Machines with Object Region Learning
- Title(参考訳): オブジェクト領域学習マシンのための画像符号化
- Authors: Takahiro Shindo, Taiju Watanabe, Kein Yamada, Hiroshi Watanabe
- Abstract要約: 対象領域を学習する画像圧縮モデルを提案する。
私たちのモデルはROIマップのような入力として追加情報を必要としておらず、タスクロスを使用しません。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compression technology is essential for efficient image transmission and
storage. With the rapid advances in deep learning, images are beginning to be
used for image recognition as well as for human vision. For this reason,
research has been conducted on image coding for image recognition, and this
field is called Image Coding for Machines (ICM). There are two main approaches
in ICM: the ROI-based approach and the task-loss-based approach. The former
approach has the problem of requiring an ROI-map as input in addition to the
input image. The latter approach has the problems of difficulty in learning the
task-loss, and lack of robustness because the specific image recognition model
is used to compute the loss function. To solve these problems, we propose an
image compression model that learns object regions. Our model does not require
additional information as input, such as an ROI-map, and does not use
task-loss. Therefore, it is possible to compress images for various image
recognition models. In the experiments, we demonstrate the versatility of the
proposed method by using three different image recognition models and three
different datasets. In addition, we verify the effectiveness of our model by
comparing it with previous methods.
- Abstract(参考訳): 圧縮技術は効率的な画像伝送と記憶に不可欠である。
ディープラーニングの急速な進歩により、画像は人間の視覚だけでなく画像認識にも使われ始めている。
このため、画像認識のための画像符号化に関する研究が行われており、この分野はicm(image coding for machines)と呼ばれる。
ICMにはROIベースのアプローチとタスクロスベースのアプローチの2つの主要なアプローチがあります。
前者のアプローチでは、入力画像に加えて、入力としてROIマップを必要とする。
後者のアプローチでは、特定の画像認識モデルを使用して損失関数を計算するため、タスク損失の学習が困難であり、堅牢性が欠如している。
これらの問題を解決するために,対象領域を学習する画像圧縮モデルを提案する。
我々のモデルはroiマップのような入力として追加情報を必要としず、タスク損失を使用しない。
したがって、様々な画像認識モデルの画像を圧縮することができる。
実験では、3つの異なる画像認識モデルと3つの異なるデータセットを用いて,提案手法の汎用性を示す。
また,従来の手法と比較することにより,モデルの有効性を検証する。
関連論文リスト
- Parameter-Inverted Image Pyramid Networks [49.35689698870247]
Inverted Image Pyramid Networks (PIIP) と呼ばれる新しいネットワークアーキテクチャを提案する。
私たちの中核となる考え方は、パラメータサイズの異なるモデルを使用して、画像ピラミッドの解像度の異なるレベルを処理することです。
PIIPは、オブジェクト検出、セグメンテーション、画像分類などのタスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-06T17:59:10Z) - CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Improving Image Coding for Machines through Optimizing Encoder via Auxiliary Loss [2.9687381456164004]
機械用画像符号化(ICM)は、人間の視覚ではなく認識モデルを用いて、機械分析のための画像を圧縮することを目的としている。
そこで本研究では,エンコーダに補助損失を付与し,その認識能力と速度歪み性能を向上させるための新しいICMモデルのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-02-13T07:45:25Z) - Detecting Generated Images by Real Images Only [64.12501227493765]
既存の画像検出手法は、生成画像中の視覚的アーティファクトを検出したり、大規模なトレーニングによって、実画像と生成画像の両方から識別的特徴を学習する。
本稿では,新たな視点から生成した画像検出問題にアプローチする。
実画像の共通性を見つけ、特徴空間内の密接な部分空間にマッピングすることで、生成した画像は生成モデルに関係なくサブ空間の外側に投影される。
論文 参考訳(メタデータ) (2023-11-02T03:09:37Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Supervised Deep Learning for Content-Aware Image Retargeting with
Fourier Convolutions [11.031841470875571]
画像は、コンテンツに注意して画像のサイズを変更することを目的としている。
ラベル付きデータセットは、イメージタスクでディープラーニングモデルのトレーニングには使用できない。
通常の畳み込みニューラルネットワークは、推論時間で異なるサイズの画像を生成することができない。
論文 参考訳(メタデータ) (2023-06-12T19:17:44Z) - 3D-Augmented Contrastive Knowledge Distillation for Image-based Object
Pose Estimation [4.415086501328683]
トレーニングプロセスでは3D形状が活用され、テストは依然として純粋に画像ベースである。
マルチモーダルモデルから画像ベースモデルへ3次元拡張画像表現を効果的に転送する新しいコントラスト型知識蒸留フレームワークを提案する。
我々は,既存のカテゴリに依存しない画像ベース手法と比較して,最先端の成果を大きなマージンで報告した。
論文 参考訳(メタデータ) (2022-06-02T16:46:18Z) - AugNet: End-to-End Unsupervised Visual Representation Learning with
Image Augmentation [3.6790362352712873]
我々は、未ラベル画像の集合から画像特徴を学習するための新しいディープラーニングトレーニングパラダイムであるAugNetを提案する。
実験により,低次元空間における画像の表現が可能であることを実証した。
多くのディープラーニングベースの画像検索アルゴリズムとは異なり、我々のアプローチは外部アノテーション付きデータセットへのアクセスを必要としない。
論文 参考訳(メタデータ) (2021-06-11T09:02:30Z) - Cross-modal Image Retrieval with Deep Mutual Information Maximization [14.778158582349137]
本研究では,入力にソース画像を含むクロスモーダル画像検索と,その画像と所望の画像の修正を記述したテキストについて検討する。
本手法は, テキストモダリティと画像モダリティのモダリティギャップを狭め, 意味的には同一でない表現間の相互情報を最大化する。
論文 参考訳(メタデータ) (2021-03-10T13:08:09Z) - Image Restoration by Deep Projected GSURE [115.57142046076164]
Ill-posed inverse problem は、デブロアリングや超解像など、多くの画像処理アプリケーションに現れる。
本稿では,一般化されたSteinUnbiased Risk Estimator(GSURE)の「投影変換」とCNNによる潜在画像のパラメータ化を含む損失関数の最小化に基づく,新たな画像復元フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-04T08:52:46Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。