論文の概要: Image Coding for Machines with Object Region Learning
- arxiv url: http://arxiv.org/abs/2308.13984v1
- Date: Sun, 27 Aug 2023 01:54:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 17:44:55.895660
- Title: Image Coding for Machines with Object Region Learning
- Title(参考訳): オブジェクト領域学習マシンのための画像符号化
- Authors: Takahiro Shindo, Taiju Watanabe, Kein Yamada, Hiroshi Watanabe
- Abstract要約: 対象領域を学習する画像圧縮モデルを提案する。
私たちのモデルはROIマップのような入力として追加情報を必要としておらず、タスクロスを使用しません。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compression technology is essential for efficient image transmission and
storage. With the rapid advances in deep learning, images are beginning to be
used for image recognition as well as for human vision. For this reason,
research has been conducted on image coding for image recognition, and this
field is called Image Coding for Machines (ICM). There are two main approaches
in ICM: the ROI-based approach and the task-loss-based approach. The former
approach has the problem of requiring an ROI-map as input in addition to the
input image. The latter approach has the problems of difficulty in learning the
task-loss, and lack of robustness because the specific image recognition model
is used to compute the loss function. To solve these problems, we propose an
image compression model that learns object regions. Our model does not require
additional information as input, such as an ROI-map, and does not use
task-loss. Therefore, it is possible to compress images for various image
recognition models. In the experiments, we demonstrate the versatility of the
proposed method by using three different image recognition models and three
different datasets. In addition, we verify the effectiveness of our model by
comparing it with previous methods.
- Abstract(参考訳): 圧縮技術は効率的な画像伝送と記憶に不可欠である。
ディープラーニングの急速な進歩により、画像は人間の視覚だけでなく画像認識にも使われ始めている。
このため、画像認識のための画像符号化に関する研究が行われており、この分野はicm(image coding for machines)と呼ばれる。
ICMにはROIベースのアプローチとタスクロスベースのアプローチの2つの主要なアプローチがあります。
前者のアプローチでは、入力画像に加えて、入力としてROIマップを必要とする。
後者のアプローチでは、特定の画像認識モデルを使用して損失関数を計算するため、タスク損失の学習が困難であり、堅牢性が欠如している。
これらの問題を解決するために,対象領域を学習する画像圧縮モデルを提案する。
我々のモデルはroiマップのような入力として追加情報を必要としず、タスク損失を使用しない。
したがって、様々な画像認識モデルの画像を圧縮することができる。
実験では、3つの異なる画像認識モデルと3つの異なるデータセットを用いて,提案手法の汎用性を示す。
また,従来の手法と比較することにより,モデルの有効性を検証する。
関連論文リスト
- CricaVPR: Cross-image Correlation-aware Representation Learning for
Visual Place Recognition [77.89584556347509]
視覚的位置認識(VPR)のための画像間相関認識を用いたロバストなグローバル表現法を提案する。
提案手法はPitts30k上の94.5%のR@1を512dimのグローバルな特徴を用いて達成する。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Improving Image Coding for Machines through Optimizing Encoder via
Auxiliary Loss [3.1457219084519004]
そこで本研究では,エンコーダに補助損失を付与し,その認識能力と速度歪み性能を向上させるための新しいICMモデルのトレーニング手法を提案する。
本手法は,従来の訓練法と比較して,オブジェクト検出とセマンティックセグメンテーションタスクにおいて,Bjontegaard Deltaレートを27.7%,20.3%向上させる。
論文 参考訳(メタデータ) (2024-02-13T07:45:25Z) - Detecting Generated Images by Real Images Only [64.12501227493765]
既存の画像検出手法は、生成画像中の視覚的アーティファクトを検出したり、大規模なトレーニングによって、実画像と生成画像の両方から識別的特徴を学習する。
本稿では,新たな視点から生成した画像検出問題にアプローチする。
実画像の共通性を見つけ、特徴空間内の密接な部分空間にマッピングすることで、生成した画像は生成モデルに関係なくサブ空間の外側に投影される。
論文 参考訳(メタデータ) (2023-11-02T03:09:37Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Supervised Deep Learning for Content-Aware Image Retargeting with
Fourier Convolutions [11.031841470875571]
画像は、コンテンツに注意して画像のサイズを変更することを目的としている。
ラベル付きデータセットは、イメージタスクでディープラーニングモデルのトレーニングには使用できない。
通常の畳み込みニューラルネットワークは、推論時間で異なるサイズの画像を生成することができない。
論文 参考訳(メタデータ) (2023-06-12T19:17:44Z) - Improving Image Recognition by Retrieving from Web-Scale Image-Text Data [68.63453336523318]
本稿では,メモリから抽出した各サンプルの重要性を学習するアテンションベースのメモリモジュールを提案する。
既存の手法と比較して,提案手法は無関係な検索例の影響を排除し,入力クエリに有益であるものを保持する。
我々は、ImageNet-LT、Places-LT、Webvisionのデータセットで最先端の精度を実現していることを示す。
論文 参考訳(メタデータ) (2023-04-11T12:12:05Z) - 3D-Augmented Contrastive Knowledge Distillation for Image-based Object
Pose Estimation [4.415086501328683]
トレーニングプロセスでは3D形状が活用され、テストは依然として純粋に画像ベースである。
マルチモーダルモデルから画像ベースモデルへ3次元拡張画像表現を効果的に転送する新しいコントラスト型知識蒸留フレームワークを提案する。
我々は,既存のカテゴリに依存しない画像ベース手法と比較して,最先端の成果を大きなマージンで報告した。
論文 参考訳(メタデータ) (2022-06-02T16:46:18Z) - AugNet: End-to-End Unsupervised Visual Representation Learning with
Image Augmentation [3.6790362352712873]
我々は、未ラベル画像の集合から画像特徴を学習するための新しいディープラーニングトレーニングパラダイムであるAugNetを提案する。
実験により,低次元空間における画像の表現が可能であることを実証した。
多くのディープラーニングベースの画像検索アルゴリズムとは異なり、我々のアプローチは外部アノテーション付きデータセットへのアクセスを必要としない。
論文 参考訳(メタデータ) (2021-06-11T09:02:30Z) - Cross-modal Image Retrieval with Deep Mutual Information Maximization [14.778158582349137]
本研究では,入力にソース画像を含むクロスモーダル画像検索と,その画像と所望の画像の修正を記述したテキストについて検討する。
本手法は, テキストモダリティと画像モダリティのモダリティギャップを狭め, 意味的には同一でない表現間の相互情報を最大化する。
論文 参考訳(メタデータ) (2021-03-10T13:08:09Z) - Image Restoration by Deep Projected GSURE [115.57142046076164]
Ill-posed inverse problem は、デブロアリングや超解像など、多くの画像処理アプリケーションに現れる。
本稿では,一般化されたSteinUnbiased Risk Estimator(GSURE)の「投影変換」とCNNによる潜在画像のパラメータ化を含む損失関数の最小化に基づく,新たな画像復元フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-04T08:52:46Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。