論文の概要: Learning to Rank Patches for Unbiased Image Redundancy Reduction
- arxiv url: http://arxiv.org/abs/2404.00680v2
- Date: Thu, 25 Apr 2024 07:35:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 20:38:42.193274
- Title: Learning to Rank Patches for Unbiased Image Redundancy Reduction
- Title(参考訳): 画像冗長性低減のためのランクパッチの学習
- Authors: Yang Luo, Zhineng Chen, Peng Zhou, Zuxuan Wu, Xieping Gao, Yu-Gang Jiang,
- Abstract要約: 画像は、隣接する領域の画素が空間的に相関しているため、空間的冗長性に悩まされる。
既存のアプローチでは、意味の少ない画像領域を減らし、この制限を克服しようとしている。
本稿では,Learning to Rank Patchesと呼ばれる画像冗長性低減のための自己教師型フレームワークを提案する。
- 参考スコア(独自算出の注目度): 80.93989115541966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Images suffer from heavy spatial redundancy because pixels in neighboring regions are spatially correlated. Existing approaches strive to overcome this limitation by reducing less meaningful image regions. However, current leading methods rely on supervisory signals. They may compel models to preserve content that aligns with labeled categories and discard content belonging to unlabeled categories. This categorical inductive bias makes these methods less effective in real-world scenarios. To address this issue, we propose a self-supervised framework for image redundancy reduction called Learning to Rank Patches (LTRP). We observe that image reconstruction of masked image modeling models is sensitive to the removal of visible patches when the masking ratio is high (e.g., 90\%). Building upon it, we implement LTRP via two steps: inferring the semantic density score of each patch by quantifying variation between reconstructions with and without this patch, and learning to rank the patches with the pseudo score. The entire process is self-supervised, thus getting out of the dilemma of categorical inductive bias. We design extensive experiments on different datasets and tasks. The results demonstrate that LTRP outperforms both supervised and other self-supervised methods due to the fair assessment of image content.
- Abstract(参考訳): 画像は、隣接する領域の画素が空間的に相関しているため、空間的冗長性に悩まされる。
既存のアプローチでは、意味の少ない画像領域を減らし、この制限を克服しようとしている。
しかし、現在の指導法は監視信号に依存している。
ラベル付きカテゴリと整合したコンテンツを保存するためにモデルを強制し、ラベルなしカテゴリに属するコンテンツを破棄する。
このカテゴリー的帰納バイアスは、これらの手法を現実のシナリオでは効果的にしない。
この問題に対処するために,Learning to Rank Patches (LTRP) と呼ばれる画像冗長性低減のための自己教師型フレームワークを提案する。
マスク画像モデルにおける画像再構成は,マスキング比が高い場合の可視パッチの除去に敏感である(例:90\%)。
そこで我々は,このパッチを用いて,各パッチの意味密度スコアを推定し,このパッチを使用せずに再構成の変動を定量化し,パッチを擬似スコアでランク付けする方法を学習する,という2つのステップを用いてLTRPを実装した。
プロセス全体が自己管理され、分類的帰納バイアスのジレンマから抜け出す。
さまざまなデータセットやタスクに関する広範な実験を設計する。
その結果, LTRPは画像内容の公平な評価により, 教師付きおよび他の自己監督手法よりも優れていた。
関連論文リスト
- Mitigating Data Consistency Induced Discrepancy in Cascaded Diffusion Models for Sparse-view CT Reconstruction [4.227116189483428]
本研究は, 離散性緩和フレームワークを用いた新規なカスケード拡散について紹介する。
潜在空間の低画質画像生成と画素空間の高画質画像生成を含む。
これは、いくつかの推論ステップをピクセル空間から潜在空間に移すことによって計算コストを最小化する。
論文 参考訳(メタデータ) (2024-03-14T12:58:28Z) - Cross-domain Self-supervised Framework for Photoacoustic Computed
Tomography Image Reconstruction [4.769412124596113]
純粋なトランスモデルを用いたクロスドメイン非教師付き再構築(CDUR)戦略を提案する。
モデルに基づく自己監督型再構成を実装し、自己監督を利用して計測と画像の整合性を強制する。
マウスのin-vivo PACTデータセットの実験結果は、我々の教師なしフレームワークの可能性を示している。
論文 参考訳(メタデータ) (2023-01-17T03:47:01Z) - Multiscale Structure Guided Diffusion for Image Deblurring [24.09642909404091]
拡散確率モデル (DPM) は画像の劣化に用いられている。
暗黙のバイアスとして、単純だが効果的なマルチスケール構造ガイダンスを導入する。
目に見えないデータのアーティファクトが少ないほど、より堅牢なデブロアリング結果を示します。
論文 参考訳(メタデータ) (2022-12-04T10:40:35Z) - Region-aware Attention for Image Inpainting [33.22497212024083]
本稿では,画像の描画のための新しい領域認識アテンション (RA) モジュールを提案する。
単一サンプルにおける各画素対間の相関を直接計算することを避けることにより、ホール内の無効情報の誤認を回避することができる。
学習可能な領域辞書(LRD)を導入し、データセット全体に重要な情報を格納する。
我々の手法は、現実的な詳細で意味論的に妥当な結果を生成することができる。
論文 参考訳(メタデータ) (2022-04-03T06:26:22Z) - Manifold-Inspired Single Image Interpolation [17.304301226838614]
単画像への多くのアプローチは半局所類似性を利用するために多様体モデルを使用する。
入力画像のエイリアス化は どちらの部分も困難です
本稿では,重度のエイリアス領域におけるエイリアス除去のための適応手法を提案する。
この技術は、強いエイリアスが存在する場合でも、類似したパッチを確実に識別することができる。
論文 参考訳(メタデータ) (2021-07-31T04:29:05Z) - Few-Shot Learning with Part Discovery and Augmentation from Unlabeled
Images [79.34600869202373]
帰納的バイアスは、ラベルなし画像の平坦な集合から学習でき、目に見えるクラスと目に見えないクラスの間で伝達可能な表現としてインスタンス化されることを示す。
具体的には、トランスファー可能な表現を学習するための、新しいパートベース自己教師型表現学習手法を提案する。
我々の手法は印象的な結果をもたらし、それまでの最高の教師なし手法を7.74%、9.24%上回った。
論文 参考訳(メタデータ) (2021-05-25T12:22:11Z) - A Hierarchical Transformation-Discriminating Generative Model for Few
Shot Anomaly Detection [93.38607559281601]
各トレーニングイメージのマルチスケールパッチ分布をキャプチャする階層的生成モデルを開発した。
この異常スコアは、スケール及び画像領域にわたる正しい変換のパッチベースの投票を集約して得られる。
論文 参考訳(メタデータ) (2021-04-29T17:49:48Z) - Deep Variational Network Toward Blind Image Restoration [60.45350399661175]
ブラインド画像復元はコンピュータビジョンでは一般的だが難しい問題である。
両利点を両立させることを目的として,新しいブラインド画像復元手法を提案する。
画像デノイングと超解像という2つの典型的なブラインド赤外線タスクの実験により,提案手法が現状よりも優れた性能を達成できることが実証された。
論文 参考訳(メタデータ) (2020-08-25T03:30:53Z) - Cross-Scale Internal Graph Neural Network for Image Super-Resolution [147.77050877373674]
自然画像における非局所的な自己相似性は、画像修復に有効な先行研究として、よく研究されている。
単一の画像超解像(SISR)の場合、既存のディープ非局所法のほとんどは、低解像度(LR)入力画像と同じ規模のパッチしか利用していない。
これは、新しいクロススケールな内部グラフニューラルネットワーク(IGNN)を用いて実現される。
論文 参考訳(メタデータ) (2020-06-30T10:48:40Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。