論文の概要: multi-patch aggregation models for resampling detection
- arxiv url: http://arxiv.org/abs/2003.01364v1
- Date: Tue, 3 Mar 2020 07:19:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 22:52:08.128805
- Title: multi-patch aggregation models for resampling detection
- Title(参考訳): 再サンプリング検出のためのマルチパッチ集約モデル
- Authors: Mohit Lamba, Kaushik Mitra
- Abstract要約: 多くの最先端の法医学アルゴリズムは画像サイズに敏感であり、様々な次元の画像で操作すると、その性能は急速に低下する。
この問題に対処するため,ITERATIVE POOLINGと呼ばれる新しいプール方式を提案する。
このプーリング戦略は、ROI Max-poolingのように情報を失うことなく、離散的に入力テンソルを動的に調整することができる。
- 参考スコア(独自算出の注目度): 31.027514747510047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Images captured nowadays are of varying dimensions with smartphones and
DSLR's allowing users to choose from a list of available image resolutions. It
is therefore imperative for forensic algorithms such as resampling detection to
scale well for images of varying dimensions. However, in our experiments, we
observed that many state-of-the-art forensic algorithms are sensitive to image
size and their performance quickly degenerates when operated on images of
diverse dimensions despite re-training them using multiple image sizes. To
handle this issue, we propose a novel pooling strategy called ITERATIVE
POOLING. This pooling strategy can dynamically adjust input tensors in a
discrete without much loss of information as in ROI Max-pooling. This pooling
strategy can be used with any of the existing deep models and for demonstration
purposes, we show its utility on Resnet-18 for the case of resampling detection
a fundamental operation for any image sought of image manipulation. Compared to
existing strategies and Max-pooling it gives up to 7-8% improvement on public
datasets.
- Abstract(参考訳): 現在撮影されている画像は、スマートフォンやDSLRで利用可能な画像解像度のリストから選択できる様々な次元のものである。
したがって、様々な次元の画像に対してよくスケールするために再サンプリング検出などの法医学的アルゴリズムには必須である。
しかし,本実験では,多くの最先端の法医学アルゴリズムが画像サイズに敏感であり,様々な次元の画像に対して複数の画像サイズを用いて再学習しても,その性能は急速に低下することがわかった。
この問題に対処するため,ITERATIVE POOLINGと呼ばれる新しいプール方式を提案する。
このプーリング戦略は、ROI Max-poolingのように情報を失うことなく、離散的に入力テンソルを動的に調整することができる。
このプーリング戦略は、既存のディープモデルでも利用可能であり、画像操作に必要な画像の基本的な操作を再サンプリングする場合に、Resnet-18でその実用性を示す。
既存の戦略やMax-poolingと比較して、公開データセットは最大7~8%改善されている。
関連論文リスト
- Multi-Feature Aggregation in Diffusion Models for Enhanced Face Super-Resolution [6.055006354743854]
超解像を生成するために,複数の低画質画像から抽出した特徴と組み合わせた低解像度画像を利用するアルゴリズムを開発した。
他のアルゴリズムとは異なり、我々のアプローチは属性情報を明示的に提供せずに顔の特徴を復元する。
これは、高解像度画像と低解像度画像を組み合わせて、より信頼性の高い超高解像度画像を生成するコンディショナーとして初めて使用される。
論文 参考訳(メタデータ) (2024-08-27T20:08:33Z) - Parameter-Inverted Image Pyramid Networks [49.35689698870247]
Inverted Image Pyramid Networks (PIIP) と呼ばれる新しいネットワークアーキテクチャを提案する。
私たちの中核となる考え方は、パラメータサイズの異なるモデルを使用して、画像ピラミッドの解像度の異なるレベルを処理することです。
PIIPは、オブジェクト検出、セグメンテーション、画像分類などのタスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-06T17:59:10Z) - Beyond Learned Metadata-based Raw Image Reconstruction [86.1667769209103]
生画像は、線形性や微細な量子化レベルなど、sRGB画像に対して明確な利点がある。
ストレージの要求が大きいため、一般ユーザからは広く採用されていない。
本稿では,メタデータとして,潜在空間におけるコンパクトな表現を学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-21T06:59:07Z) - Cascaded Cross-Attention Networks for Data-Efficient Whole-Slide Image
Classification Using Transformers [0.11219061154635457]
全スライディングイメージングは、組織標本の高解像度画像のキャプチャとデジタル化を可能にする。
高解像度情報を効果的に活用するための候補としてトランスフォーマーアーキテクチャが提案されている。
本稿では,抽出されたパッチ数と線形にスケールするクロスアテンション機構に基づく新しいカスケード型クロスアテンションネットワーク(CCAN)を提案する。
論文 参考訳(メタデータ) (2023-05-11T16:42:24Z) - ResFormer: Scaling ViTs with Multi-Resolution Training [100.01406895070693]
私たちはResFormerを紹介します。ResFormerは、広く、ほとんど目に見えない、テストの解像度でパフォーマンスを改善するフレームワークです。
特にResFormerは、異なる解像度の再現されたイメージを実行し、さまざまなスケールでインタラクティブな情報をエンゲージするスケール一貫性の損失を強制する。
さらに、ResFormerは柔軟性があり、セマンティックセグメンテーション、オブジェクト検出、ビデオアクション認識に容易に拡張できることを示す。
論文 参考訳(メタデータ) (2022-12-01T18:57:20Z) - Sci-Net: a Scale Invariant Model for Building Detection from Aerial
Images [0.0]
本研究では,空間分解能の異なる空間画像に存在している建物を分割できるスケール不変ニューラルネットワーク(Sci-Net)を提案する。
具体的には,U-Netアーキテクチャを改良し,それを高密度なASPP(Atrous Space Pyramid Pooling)で融合し,微細なマルチスケール表現を抽出した。
論文 参考訳(メタデータ) (2021-11-12T16:45:20Z) - You Better Look Twice: a new perspective for designing accurate
detectors with reduced computations [56.34005280792013]
BLT-netは、新しい低計算の2段階オブジェクト検出アーキテクチャである。
非常にエレガントな第1ステージを使用して、オブジェクトをバックグラウンドから分離することで、計算を削減します。
結果のイメージ提案は、高度に正確なモデルによって第2段階で処理される。
論文 参考訳(メタデータ) (2021-07-21T12:39:51Z) - Single Image Super-Resolution for Domain-Specific Ultra-Low Bandwidth
Image Transmission [1.5469452301122177]
水中音響通信のような低帯域通信は、最高速度30-50kbit/sで制限される。
本研究は,漁網にカメラを設置したトロール漁で得られた多種多様なデータセットについて検討した。
ニューラルネットワークは、元のイメージを再構築しようと、アップサンプリングを行うように訓練される。
論文 参考訳(メタデータ) (2020-09-09T06:44:30Z) - MuCAN: Multi-Correspondence Aggregation Network for Video
Super-Resolution [63.02785017714131]
ビデオ超解像(VSR)は、複数の低解像度フレームを使用して、各フレームに対して高解像度の予測を生成することを目的としている。
フレーム間およびフレーム内は、時間的および空間的情報を利用するための鍵となるソースである。
VSRのための効果的なマルチ対応アグリゲーションネットワーク(MuCAN)を構築した。
論文 参考訳(メタデータ) (2020-07-23T05:41:27Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。