Fugu-MT 論文翻訳(概要): Differentiable Patch Selection for Image Recognition

論文の概要: Differentiable Patch Selection for Image Recognition

arxiv url: http://arxiv.org/abs/2104.03059v1
Date: Wed, 7 Apr 2021 11:15:51 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-08 13:07:09.391927
Title: Differentiable Patch Selection for Image Recognition
Title（参考訳）: 画像認識のための微分可能なパッチ選択
Authors: Jean-Baptiste Cordonnier, Aravindh Mahendran, Alexey Dosovitskiy, Dirk Weissenborn, Jakob Uszkoreit, Thomas Unterthiner
Abstract要約: そこで我々は,高解像度画像を処理するために,入力の最も関連性の高い部分を選択可能なTop-K演算子を提案する。オブジェクト/部分境界ボックスアノテーションを使わずに,トラフィックサイン認識,パッチ間関係推論,微粒化認識の結果を示す。
参考スコア（独自算出の注目度）: 37.11810982945019
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Neural Networks require large amounts of memory and compute to process high resolution images, even when only a small part of the image is actually informative for the task at hand. We propose a method based on a differentiable Top-K operator to select the most relevant parts of the input to efficiently process high resolution images. Our method may be interfaced with any downstream neural network, is able to aggregate information from different patches in a flexible way, and allows the whole model to be trained end-to-end using backpropagation. We show results for traffic sign recognition, inter-patch relationship reasoning, and fine-grained recognition without using object/part bounding box annotations during training.
Abstract（参考訳）: ニューラルネットワークは大量のメモリを必要とし、高精細な画像を処理するために計算する。本稿では,高解像度画像を効率よく処理するための入力の最も関連性の高い部分を選択するための,微分可能なTop-K演算子に基づく手法を提案する。本手法は,任意の下流ニューラルネットワークとインターフェースし,フレキシブルな方法で異なるパッチから情報を集約し,モデル全体をバックプロパゲーションを用いてエンドツーエンドでトレーニングすることができる。トレーニング中にオブジェクト/部分境界ボックスアノテーションを使わずに,交通信号認識,パッチ間関係推論,微粒化認識の結果を示す。

関連論文リスト

Scaling Up Single Image Dehazing Algorithm by Cross-Data Vision Alignment for Richer Representation Learning and Beyond [47.425906124301775]
本稿では,よりリッチな表現学習のためのクロスデータビジョンアライメント手法を提案する。データの外部アライメントを使用することで、データセットは、しっかりと整列された異なるドメインからのサンプルを継承する。提案手法は, 実際のヘイズフリー画像に最も近いデハズド画像のデハズ化やデハズド画像の生成において, 他の先進的手法よりも著しく優れている。
論文参考訳（メタデータ） (2024-07-20T10:00:20Z)
Interactive Image Selection and Training for Brain Tumor Segmentation Network [42.62139206176152]
画像マーカー(FLIM)からの特徴学習に基づく画像選択と訓練のための対話的手法を用いる。その結果,本手法では,U字型ネットワークのエンコーダを訓練するための少数の画像を選択することができ,手動選択に匹敵する性能を得ることができ,また,バックプロパゲーションとトレーニング画像のトレーニングを施した同一のU字型ネットワークを超越することさえできた。
論文参考訳（メタデータ） (2024-06-05T13:03:06Z)
CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文参考訳（メタデータ） (2024-02-29T15:05:11Z)
Scalable Federated Learning for Clients with Different Input Image Sizes and Numbers of Output Categories [34.22635158366194]
フェデレートラーニング(Federated Learning)とは、複数のクライアントからトレーニングを受けるが、機密データを共有しないプライバシー保護トレーニング手法である。本稿では,クライアントの入力画像サイズと出力カテゴリ数に応じて,各クライアントのローカルモデルの深さと幅を調節する,ScalableFLという効果的なフェデレーション学習手法を提案する。
論文参考訳（メタデータ） (2023-11-15T05:43:14Z)
Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文参考訳（メタデータ） (2022-04-19T17:59:45Z)
Learning to Focus: Cascaded Feature Matching Network for Few-shot Image Recognition [38.49419948988415]
ディープネットワークは、多数の画像でトレーニングすることで、カテゴリのオブジェクトを正確に認識することを学ぶことができる。低ショット画像認識タスク(low-shot image recognition task)として知られるメタラーニングの課題は、1つのカテゴリの認識モデルを学ぶためにアノテーション付き画像しか利用できない場合に発生する。この問題を解決するため,Cascaded Feature Matching Network (CFMN) と呼ばれる手法を提案する。 EmphminiImageNet と Omniglot の2つの標準データセットを用いた数ショット学習実験により,本手法の有効性が確認された。
論文参考訳（メタデータ） (2021-01-13T11:37:28Z)
Resolution Switchable Networks for Runtime Efficient Image Recognition [46.09537029831355]
本稿では,推論時に画像解像度を切り替えることのできる,単一の畳み込みニューラルネットワークを訓練する一般的な手法を提案する。提案手法でトレーニングしたネットワークは、Resolvation Switchable Networks (RS-Nets) と呼ばれる。
論文参考訳（メタデータ） (2020-07-19T02:12:59Z)
Learning to Learn Parameterized Classification Networks for Scalable Input Images [76.44375136492827]
畳み込みニューラルネットワーク(CNN)は、入力解像度の変化に関して予測可能な認識動作を持たない。我々はメタラーナーを用いて、様々な入力スケールのメインネットワークの畳み込み重みを生成する。さらに、異なる入力解像度に基づいて、モデル予測よりもフライでの知識蒸留を利用する。
論文参考訳（メタデータ） (2020-07-13T04:27:25Z)
ResNeSt: Split-Attention Networks [86.25490825631763]
このアーキテクチャは、異なるネットワークブランチにチャンネルワイズを応用し、機能間相互作用のキャプチャと多様な表現の学習の成功を活用する。我々のモデルはResNeStと呼ばれ、画像分類の精度と遅延トレードオフにおいてEfficientNetより優れています。
論文参考訳（メタデータ） (2020-04-19T20:40:31Z)
Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文参考訳（メタデータ） (2020-03-15T11:04:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。