Fugu-MT 論文翻訳(概要): Image Coding for Machines with Object Region Learning

論文の概要: Image Coding for Machines with Object Region Learning

arxiv url: http://arxiv.org/abs/2308.13984v1
Date: Sun, 27 Aug 2023 01:54:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-29 17:44:55.895660
Title: Image Coding for Machines with Object Region Learning
Title（参考訳）: オブジェクト領域学習マシンのための画像符号化
Authors: Takahiro Shindo, Taiju Watanabe, Kein Yamada, Hiroshi Watanabe
Abstract要約: 対象領域を学習する画像圧縮モデルを提案する。私たちのモデルはROIマップのような入力として追加情報を必要としておらず、タスクロスを使用しません。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Compression technology is essential for efficient image transmission and storage. With the rapid advances in deep learning, images are beginning to be used for image recognition as well as for human vision. For this reason, research has been conducted on image coding for image recognition, and this field is called Image Coding for Machines (ICM). There are two main approaches in ICM: the ROI-based approach and the task-loss-based approach. The former approach has the problem of requiring an ROI-map as input in addition to the input image. The latter approach has the problems of difficulty in learning the task-loss, and lack of robustness because the specific image recognition model is used to compute the loss function. To solve these problems, we propose an image compression model that learns object regions. Our model does not require additional information as input, such as an ROI-map, and does not use task-loss. Therefore, it is possible to compress images for various image recognition models. In the experiments, we demonstrate the versatility of the proposed method by using three different image recognition models and three different datasets. In addition, we verify the effectiveness of our model by comparing it with previous methods.
Abstract（参考訳）: 圧縮技術は効率的な画像伝送と記憶に不可欠である。ディープラーニングの急速な進歩により、画像は人間の視覚だけでなく画像認識にも使われ始めている。このため、画像認識のための画像符号化に関する研究が行われており、この分野はicm(image coding for machines)と呼ばれる。 ICMにはROIベースのアプローチとタスクロスベースのアプローチの2つの主要なアプローチがあります。前者のアプローチでは、入力画像に加えて、入力としてROIマップを必要とする。後者のアプローチでは、特定の画像認識モデルを使用して損失関数を計算するため、タスク損失の学習が困難であり、堅牢性が欠如している。これらの問題を解決するために,対象領域を学習する画像圧縮モデルを提案する。我々のモデルはroiマップのような入力として追加情報を必要としず、タスク損失を使用しない。したがって、様々な画像認識モデルの画像を圧縮することができる。実験では、3つの異なる画像認識モデルと3つの異なるデータセットを用いて,提案手法の汎用性を示す。また,従来の手法と比較することにより,モデルの有効性を検証する。

関連論文リスト

Explicit Residual-Based Scalable Image Coding for Humans and Machines [0.0]
スケーラブルな画像圧縮手法はマシンと人間の視覚の両方に役立ちます本稿では, 明示的な残差圧縮機構を統合することにより, ICMHフレームワークの符号化効率と解釈可能性を向上させる。特徴残差ベース残差ベース符号化(FR-ICMH)と画素残差ベース残差ベース残差ベース符号化(PR-ICMH)の2つの補完手法を提案する。
論文参考訳（メタデータ） (2025-06-24T04:01:53Z)
A Large-scale AI-generated Image Inpainting Benchmark [11.216906046169683]
本稿では,高品質な塗り絵データセットの作成手法を提案し,それをDiQuID作成に適用する。 DiQuIDは、MS-COCO、RAISE、OpenImagesから78,000個のオリジナル画像から生成された95,000枚のインペイント画像で構成されている。我々は、最先端の偽造検出手法を用いて包括的なベンチマーク結果を提供し、検出アルゴリズムの評価と改善におけるデータセットの有効性を実証する。
論文参考訳（メタデータ） (2025-02-10T15:56:28Z)
MatchAnything: Universal Cross-Modality Image Matching with Large-Scale Pre-Training [62.843316348659165]
ディープラーニングに基づく画像マッチングアルゴリズムは、人間を劇的に上回り、大量の対応を素早く正確に見つける。本稿では, 画像間の基本構造を認識し, 一致させるためのモデル学習のために, 合成モード間学習信号を利用する大規模事前学習フレームワークを提案する。我々の重要な発見は、我々のフレームワークで訓練されたマッチングモデルが、目に見えない8つのクロスモダリティ登録タスクにまたがる顕著な一般化性を達成することである。
論文参考訳（メタデータ） (2025-01-13T18:37:36Z)
Parameter-Inverted Image Pyramid Networks [49.35689698870247]
Inverted Image Pyramid Networks (PIIP) と呼ばれる新しいネットワークアーキテクチャを提案する。私たちの中核となる考え方は、パラメータサイズの異なるモデルを使用して、画像ピラミッドの解像度の異なるレベルを処理することです。 PIIPは、オブジェクト検出、セグメンテーション、画像分類などのタスクにおいて優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-06-06T17:59:10Z)
CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文参考訳（メタデータ） (2024-02-29T15:05:11Z)
Improving Image Coding for Machines through Optimizing Encoder via Auxiliary Loss [2.9687381456164004]
機械用画像符号化(ICM)は、人間の視覚ではなく認識モデルを用いて、機械分析のための画像を圧縮することを目的としている。そこで本研究では,エンコーダに補助損失を付与し,その認識能力と速度歪み性能を向上させるための新しいICMモデルのトレーニング手法を提案する。
論文参考訳（メタデータ） (2024-02-13T07:45:25Z)
Detecting Generated Images by Real Images Only [64.12501227493765]
既存の画像検出手法は、生成画像中の視覚的アーティファクトを検出したり、大規模なトレーニングによって、実画像と生成画像の両方から識別的特徴を学習する。本稿では,新たな視点から生成した画像検出問題にアプローチする。実画像の共通性を見つけ、特徴空間内の密接な部分空間にマッピングすることで、生成した画像は生成モデルに関係なくサブ空間の外側に投影される。
論文参考訳（メタデータ） (2023-11-02T03:09:37Z)
Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文参考訳（メタデータ） (2023-08-04T10:28:48Z)
Supervised Deep Learning for Content-Aware Image Retargeting with Fourier Convolutions [11.031841470875571]
画像は、コンテンツに注意して画像のサイズを変更することを目的としている。ラベル付きデータセットは、イメージタスクでディープラーニングモデルのトレーニングには使用できない。通常の畳み込みニューラルネットワークは、推論時間で異なるサイズの画像を生成することができない。
論文参考訳（メタデータ） (2023-06-12T19:17:44Z)
3D-Augmented Contrastive Knowledge Distillation for Image-based Object Pose Estimation [4.415086501328683]
トレーニングプロセスでは3D形状が活用され、テストは依然として純粋に画像ベースである。マルチモーダルモデルから画像ベースモデルへ3次元拡張画像表現を効果的に転送する新しいコントラスト型知識蒸留フレームワークを提案する。我々は,既存のカテゴリに依存しない画像ベース手法と比較して,最先端の成果を大きなマージンで報告した。
論文参考訳（メタデータ） (2022-06-02T16:46:18Z)
AugNet: End-to-End Unsupervised Visual Representation Learning with Image Augmentation [3.6790362352712873]
我々は、未ラベル画像の集合から画像特徴を学習するための新しいディープラーニングトレーニングパラダイムであるAugNetを提案する。実験により,低次元空間における画像の表現が可能であることを実証した。多くのディープラーニングベースの画像検索アルゴリズムとは異なり、我々のアプローチは外部アノテーション付きデータセットへのアクセスを必要としない。
論文参考訳（メタデータ） (2021-06-11T09:02:30Z)
Cross-modal Image Retrieval with Deep Mutual Information Maximization [14.778158582349137]
本研究では,入力にソース画像を含むクロスモーダル画像検索と,その画像と所望の画像の修正を記述したテキストについて検討する。本手法は, テキストモダリティと画像モダリティのモダリティギャップを狭め, 意味的には同一でない表現間の相互情報を最大化する。
論文参考訳（メタデータ） (2021-03-10T13:08:09Z)
Image Restoration by Deep Projected GSURE [115.57142046076164]
Ill-posed inverse problem は、デブロアリングや超解像など、多くの画像処理アプリケーションに現れる。本稿では,一般化されたSteinUnbiased Risk Estimator(GSURE)の「投影変換」とCNNによる潜在画像のパラメータ化を含む損失関数の最小化に基づく,新たな画像復元フレームワークを提案する。
論文参考訳（メタデータ） (2021-02-04T08:52:46Z)
Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文参考訳（メタデータ） (2020-04-14T16:29:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。