論文の概要: DeepEMD: Differentiable Earth Mover's Distance for Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2003.06777v5
- Date: Thu, 30 Mar 2023 10:48:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 18:56:48.632319
- Title: DeepEMD: Differentiable Earth Mover's Distance for Few-Shot Learning
- Title(参考訳): DeepEMD:Few-Shot Learningのための微分可能なアースマーバー距離
- Authors: Chi Zhang, Yujun Cai, Guosheng Lin, Chunhua Shen
- Abstract要約: 我々は,画像領域間の最適なマッチングの新しい視点から,少数ショット画像分類法を開発した。
我々は、高密度画像表現間の構造距離を計算するために、Earth Mover's Distance (EMD) を用いている。
定式化において重要な要素の重みを生成するために,我々は相互参照機構を設計する。
- 参考スコア(独自算出の注目度): 122.51237307910878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we develop methods for few-shot image classification from a new
perspective of optimal matching between image regions. We employ the Earth
Mover's Distance (EMD) as a metric to compute a structural distance between
dense image representations to determine image relevance. The EMD generates the
optimal matching flows between structural elements that have the minimum
matching cost, which is used to calculate the image distance for
classification. To generate the important weights of elements in the EMD
formulation, we design a cross-reference mechanism, which can effectively
alleviate the adverse impact caused by the cluttered background and large
intra-class appearance variations. To implement k-shot classification, we
propose to learn a structured fully connected layer that can directly classify
dense image representations with the EMD. Based on the implicit function
theorem, the EMD can be inserted as a layer into the network for end-to-end
training. Our extensive experiments validate the effectiveness of our algorithm
which outperforms state-of-the-art methods by a significant margin on five
widely used few-shot classification benchmarks, namely, miniImageNet,
tieredImageNet, Fewshot-CIFAR100 (FC100), Caltech-UCSD Birds-200-2011 (CUB),
and CIFAR-FewShot (CIFAR-FS). We also demonstrate the effectiveness of our
method on the image retrieval task in our experiments.
- Abstract(参考訳): 本研究では,画像領域間の最適マッチングという新しい視点から,少数ショット画像分類法を開発した。
我々は、高密度画像表現間の構造的距離を計算し、画像関連性を決定するために、Earth Mover's Distance (EMD) を用いる。
emdは、分類のための画像距離を計算するために使用される最小マッチングコストを有する構造要素間の最適なマッチングフローを生成する。
EMD の定式化において重要な要素の重み付けを生成するために,乱れの背景やクラス内変動の大きな影響を効果的に緩和するクロス参照機構を設計する。
そこで,kショット分類を実現するために,emdを用いて高密度画像表現を直接分類できる構造的完全連結層を学習することを提案する。
暗黙の関数定理に基づいて、EMDはネットワークに層として挿入してエンドツーエンドのトレーニングを行うことができる。
提案手法の有効性を,MiniImageNet, tieredImageNet, Fewshot-CIFAR100 (FC100), Caltech-UCSD Birds-200-2011 (CUB), CIFAR-FewShot (CIFAR-FS) の5つの大小小小小分類ベンチマークで比較検討した。
また,本実験における画像検索における提案手法の有効性を示す。
関連論文リスト
- Annotation Cost-Efficient Active Learning for Deep Metric Learning Driven Remote Sensing Image Retrieval [3.2109665109975696]
ANNEALは、類似した、異種のイメージペアで構成された、小さくて情報的なトレーニングセットを作成することを目的としている。
不確実性と多様性の基準を組み合わせることにより、画像対の情報性を評価する。
このアノテート方式は、ランド・ユース・ランド・カバー・クラスラベルによるアノテート画像と比較して、アノテーションコストを著しく削減する。
論文 参考訳(メタデータ) (2024-06-14T15:08:04Z) - MESA: Matching Everything by Segmenting Anything [16.16319526547664]
MESAは、精度の高い領域(または領域)マッチングを確立するための新しいアプローチである。
室内および屋外の下流作業において,MESAが複数点整合器の精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-01-30T04:39:32Z) - Object Detection in Aerial Images in Scarce Data Regimes [0.0]
小さな物体は、より多数の空中画像において、自然画像と空中画像の間の明らかなパフォーマンスギャップの原因となっている。
FSOD法の訓練と評価を改善するスケール適応型ボックス類似度基準を提案する。
また、計量学習と微調整に基づく2つの異なるアプローチによる汎用FSODにも貢献する。
論文 参考訳(メタデータ) (2023-10-16T14:16:47Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - CSP: Self-Supervised Contrastive Spatial Pre-Training for
Geospatial-Visual Representations [90.50864830038202]
ジオタグ付き画像の自己教師型学習フレームワークであるContrastive Spatial Pre-Training(CSP)を提案する。
デュアルエンコーダを用いて画像とその対応する位置情報を別々に符号化し、コントラスト目的を用いて画像から効果的な位置表現を学習する。
CSPは、様々なラベル付きトレーニングデータサンプリング比と10~34%の相対的な改善で、モデル性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-05-01T23:11:18Z) - A Model-data-driven Network Embedding Multidimensional Features for
Tomographic SAR Imaging [5.489791364472879]
多次元特徴量に基づくトモSARイメージングを実現するためのモデルデータ駆動型ネットワークを提案する。
画像シーンの多次元的特徴を効果的に向上するために、2つの2次元処理モジュール(畳み込みエンコーダ-デコーダ構造)を追加します。
従来のCS-based FISTA法とDL-based gamma-Net法と比較して,提案手法は良好な画像精度を有しつつ,完全性を向上させる。
論文 参考訳(メタデータ) (2022-11-28T02:01:43Z) - Image-specific Convolutional Kernel Modulation for Single Image
Super-resolution [85.09413241502209]
本稿では,新しい画像特異的畳み込み変調カーネル(IKM)を提案する。
我々は、画像や特徴のグローバルな文脈情報を利用して、畳み込みカーネルを適応的に調整するための注意重みを生成する。
単一画像超解像実験により,提案手法は最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-11-16T11:05:10Z) - Transductive Few-Shot Classification on the Oblique Manifold [5.115651633703363]
限られたデータで学習しようとする学習は少ない。
本研究では,ユークリッド空間における特徴抽出を行う。
また,空間ピラミッドプールを用いた非パラメトリック領域自己アテンションを提案する。
論文 参考訳(メタデータ) (2021-08-09T13:01:03Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z) - Gradient-Induced Co-Saliency Detection [81.54194063218216]
Co-SOD(Co-saliency Detection)は、一般的な唾液前景を関連画像のグループに分割することを目的としている。
本稿では,人間の行動にインスパイアされた,勾配誘導型共分散検出法を提案する。
論文 参考訳(メタデータ) (2020-04-28T08:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。