論文の概要、ライセンス

# (参考訳) Tangoに2つ必要な - 深層学習のためのMixup [全文訳有]

It Takes Two to Tango: Mixup for Deep Metric Learning ( http://arxiv.org/abs/2106.04990v1 )

ライセンス: CC BY 4.0
Shashanka Venkataramanan, Bill Psomas, Yannis Avrithis, Ewa Kijak, Laurent Amsaleg, Konstantinos Karantzalos(参考訳) メトリクス学習は、類似クラスの埋め込みが近くになるように差別的な表現を学ぶことを含み、異なるクラスの埋め込みは遠くまで押し出されます。 最先端の手法は主に高度な損失関数や鉱業戦略に焦点を当てている。 一方、メトリック学習の損失は、一度に2つ以上の例を考える。 一方,分類のための現代的データ拡張手法では,一度に2つ以上の例を考察する。 2つのアイデアの組み合わせは未研究である。 本研究では,2つ以上のサンプルと対応するターゲットラベルを一度に補間する強力なデータ拡張手法であるmixupを用いて,このギャップを解消し,表現を改善することを目的とする。 この課題は、分類とは異なり、メトリック学習で使われる損失関数は例に加算されないため、対象ラベルを補間するという考えは単純ではないため、難しい。 私たちの知識を最大限に活用するために、深層メトリック学習のためのサンプルとターゲットラベルの混合を調査した最初の人物です。 我々は,既存のメトリック学習損失関数を包含する一般化された定式化を開発し,Metric MixやMetrixを導入して,ミックスアップに対応するように修正する。 入力,中間表現,埋め込みを混合することで,4つのベンチマークデータセットにおける表現が大幅に改善され,最先端のメトリック学習手法を上回っていることを示す。

Metric learning involves learning a discriminative representation such that embeddings of similar classes are encouraged to be close, while embeddings of dissimilar classes are pushed far apart. State-of-the-art methods focus mostly on sophisticated loss functions or mining strategies. On the one hand, metric learning losses consider two or more examples at a time. On the other hand, modern data augmentation methods for classification consider two or more examples at a time. The combination of the two ideas is under-studied. In this work, we aim to bridge this gap and improve representations using mixup, which is a powerful data augmentation approach interpolating two or more examples and corresponding target labels at a time. This task is challenging because, unlike classification, the loss functions used in metric learning are not additive over examples, so the idea of interpolating target labels is not straightforward. To the best of our knowledge, we are the first to investigate mixing examples and target labels for deep metric learning. We develop a generalized formulation that encompasses existing metric learning loss functions and modify it to accommodate for mixup, introducing Metric Mix, or Metrix. We show that mixing inputs, intermediate representations or embeddings along with target labels significantly improves representations and outperforms state-of-the-art metric learning methods on four benchmark datasets.
公開日: Wed, 9 Jun 2021 11:20:03 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
1 2 0 2 n u J 1 2 0 2 n u J 0.85
9 ] G L . 9 ] G L。 0.81
s c [ 1 v 0 9 9 4 0 sc [ 1 v 0 9 9 4 0 0.68
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
It Takes Two to Tango: Mixup for Deep Metric Learning 丹後まで2本。 Deep Metric LearningのためのMixup 0.54
Shashanka Venkataramanan1 Shashanka Venkataramanan1 0.88
Laurent Amsaleg1 laurent amsaleg1 0.67
Bill Psomas2 Bill Psomas2 0.88
Yannis Avrithis1 Konstantinos Karantzalos2 Yannis Avrithis1 Konstantinos Karantzalos2 0.84
Ewa Kijak1 Ewa Kijak1 0.88
1Inria, Univ Rennes, CNRS, IRISA 1Inria, Univ Rennes, CNRS, IRISA 0.94
2National Technical University of Athens アテネ国立工業大学2校 0.74
Abstract Metric learning involves learning a discriminative representation such that embeddings of similar classes are encouraged to be close, while embeddings of dissimilar classes are pushed far apart. 概要 メトリクス学習は、類似クラスの埋め込みが近くになるように差別的な表現を学ぶことを含み、異なるクラスの埋め込みは遠くまで押し出されます。 0.58
State-of-the-art methods focus mostly on sophisticated loss functions or mining strategies. 最先端の手法は主に高度な損失関数や鉱業戦略に焦点を当てている。 0.57
On the one hand, metric learning losses consider two or more examples at a time. 一方、メトリック学習の損失は、一度に2つ以上の例を考える。 0.74
On the other hand, modern data augmentation methods for classification consider two or more examples at a time. 一方,分類のための現代的データ拡張手法では,一度に2つ以上の例を考察する。 0.81
The combination of the two ideas is under-studied. 2つのアイデアの組み合わせは未研究である。 0.60
In this work, we aim to bridge this gap and improve representations using mixup, which is a powerful data augmentation approach interpolating two or more examples and corresponding target labels at a time. 本研究では,2つ以上のサンプルと対応するターゲットラベルを一度に補間する強力なデータ拡張手法であるmixupを用いて,このギャップを解消し,表現を改善することを目的とする。 0.68
This task is challenging because unlike classification, the loss functions used in metric learning are not additive over examples, so the idea of interpolating target labels is not straightforward. 分類とは異なり、計量学習で使われる損失関数は例よりも加法的ではないため、対象ラベルを補間するという考え方は簡単ではない。 0.69
To the best of our knowledge, we are the first to investigate mixing examples and target labels for deep metric learning. 私たちの知識を最大限に活用するために、深層メトリック学習のためのサンプルとターゲットラベルの混合を調査した最初の人物です。 0.65
We develop a generalized formulation that encompasses existing metric learning loss functions and modify it to accommodate for mixup, introducing Metric Mix, or Metrix. 我々は,既存のメトリック学習損失関数を包含する一般化された定式化を開発し,Metric MixやMetrixを導入して,ミックスアップに対応するように修正する。 0.67
We show that mixing inputs, intermediate representations or embeddings along with target labels significantly improves representations and outperforms state-of-the-art metric learning methods on four benchmark datasets. 入力,中間表現,埋め込みを混合することで,4つのベンチマークデータセットにおける表現が大幅に改善され,最先端のメトリック学習手法を上回っていることを示す。 0.60
1 Introduction Classification is one of the most studied tasks in machine learning and deep learning. はじめに 分類は機械学習とディープラーニングにおいて最も研究されているタスクの1つである。 0.60
It is a common source of pre-trained models for transfer learning to other tasks [7, 22]. 他のタスク [7, 22] への転送学習のための事前学習モデルの一般的なソースである。 0.75
It has been studied under different supervision settings [3, 39], knowledge transfer [16] and data augmentation [5], including the recent research line on mixup [43, 55], where embeddings and labels are interpolated. 3, 39], 知識伝達 [16], データ拡張 [5] など, 埋め込みとラベルを補間するmixup [43, 55] の最近の研究ラインを含む, 様々な管理設定 [3, 39] , 知識伝達 [16] およびデータ拡張 [5] の下で研究されている。
訳抜け防止モード: 異なる監督設定[3, 39]で研究されている。 知識伝達 [16 ] とデータ拡張 [5 ] ミックスアップに関する最近の研究線を含めます [43, 55] 埋め込みやラベルは補間されます
0.78
Deep metric learning is about learning from pairwise interactions such that inference relies on instance embeddings, e g for nearest neighbor classification [30], instance-level retrieval [9], face recognition [37] and semantic textual similarity [33]. ディープメトリックラーニングとは、例えば、近隣の分類[30]、インスタンスレベルの検索[9]、顔認識[37]、セマンティックテキストの類似性[33]など、推論がインスタンスの埋め込みに依存するようなペアワイズ相互作用から学習することである。
訳抜け防止モード: 深層計量学習は、推論がインスタンスの埋め込みに依存するようなペアワイズ相互作用から学ぶことである。 eg for near neighbor classification [ 30 ], instance - level search [ 9 ] 顔認識[37 ]と意味的テキスト類似性[33 ]。
0.85
Following [50], it is most often 50]に従うと、最も頻繁に起こる 0.74
few-shot learning [44], 数発の学習[44], 0.81
class label interpolation anchor positive negative mixed クラスラベル補間 アンカー正負混合 0.59
Figure 1: Metrix (= Metric Mix) allows an anchor to interact with positive (same class), negative (different class) and interpolated examples, which also have interpolated labels. 図1: metrix (= metric mix) はアンカーが正(同じクラス)、負(異なるクラス)、補間例(補間ラベルを含む)と相互作用することを可能にする。 0.76
英語(論文から抽出)日本語訳スコア
fully supervised by one class label per example, similar to classification. 分類と同様、例ごとに1つのクラスラベルで完全に管理されている。 0.57
The two mostly studied problems are loss functions [29] and hard example mining [34, 49]. 主に研究された2つの問題は損失関数[29]とハードサンプルマイニング[34,49]である。 0.82
In fact, tuple-based losses with example weighting [47] can play the role of both. 実際、サンプル重み付け[47]によるタプルベースの損失は、両方の役割を担います。 0.67
Unlike classification, classes (and distributions) at training and inference are different in metric learning. 分類とは異なり、トレーニングと推論のクラス(と分布)はメートル法学習では異なる。 0.82
Thus, one might expect interpolation-based data augmentation like mixup to be even more important in metric learning than in classification. したがって、mixupのような補間ベースのデータ拡張は、分類よりもメトリック学習においてさらに重要であると期待できるかもしれない。
訳抜け防止モード: ですから 期待できるのは 補間 - mixupのようなデータ拡張は、分類よりもメトリック学習においてさらに重要である。
0.74
Yet, recent attempts are mostly limited to special cases of embedding interpolation and have trouble with label interpolation [21]. しかし,最近の試みは補間を埋め込む特殊な事例に限られており,ラベル補間に問題がある[21]。 0.74
This raises the question: what is a proper way to define and interpolate labels for metric learning? メトリクス学習のためにラベルを定義し、解釈するための適切な方法は何ですか? 0.69
In this work, we observe that metric learning is no different from classification, where examples are replaced by pairs of examples and class labels by “positive” or “negative”, according to whether class labels of individual examples are the same or not. 本研究では,個々の例のクラスラベルが同一であるか否かに応じて,例を例とクラスラベルのペアに“ポジティブ”あるいは“ネガティブ”に置き換えることにより,メトリック学習が分類と何ら変わらないことを観察する。 0.86
We say positive/negative pairs or positive/negative examples for another example that we call an anchor. 我々は、アンカーと呼ぶ別の例に対して、正/負のペアまたは正/負の例と言う。 0.56
Then, as shown in Figure 1, a straightforward way is to use a binary (two class) label per pair and interpolate it linearly as in standard mixup. 次に図1に示すように、単純な方法はバイナリ(2つのクラス)ラベルをペアごとに使用して、標準ミックスアップのように線形に補間することです。
訳抜け防止モード: では 図1に示すように バイナリ(2つのクラス)ラベルをペアごとに使用し、標準的なミックスアップのように線形に補間する。
0.75
We call our method Metric Mix, or Metrix for short. 略してMetric MixまたはMetrixと呼んでいます。 0.73
In summary, we make the following contributions: まとめると、以下の貢献をしている。 0.64
1. We define a generic way of representing and interpolating labels, which allows straightforward extension of any kind of mixup to deep metric learning for a large class of loss functions. 1. ラベルを表現・補間する汎用的な方法を定義し,任意の種類のミックスアップを,大規模な損失関数に対する深い計量学習に簡単に拡張することができる。 0.80
We develop our method on a generic formulation that encapsulates these functions. これらの関数をカプセル化する汎用的な定式化法を開発した。 0.59
2. We define the “positivity” of a mixed example and we study precisely how it increases as a 2. 混合例の「ポジティビティ」を定義し、それがどのように増加するかを正確に研究する。
訳抜け防止モード: 2. 混合例の「肯定性」を定義する そしてそれがどのように増加するかを正確に研究し
0.80
function of the interpolation factor, both in theory and empirically. 補間因子の機能 理論的にも経験的にも 0.57
3. We systematically evaluate mixup for deep metric learning under different settings, including mixup at different representation levels (input/manifold), mixup of different pairs of examples (anchors/positives/n egatives), loss functions and hard example mining. 3. 異なる表現レベル(インプット/マニフォールド)での混合、異なるペアのサンプル(アンカー/陽性/負)の混合、損失関数、ハードサンプルマイニングなど、異なる設定下でのディープメトリック学習のためのミックスアップを系統的に評価した。
訳抜け防止モード: 3. 異なる条件下での深度測定学習のためのミックスアップを系統的に評価した。 様々な表現レベルで (入力/多様体) 様々な例の混成 (アンカー/正/負) 損失関数と ハード・サンプル・マイニング
0.78
4. We improve the state-of-the-art on four common metric learning benchmarks. 4. 4つの一般的なメトリック学習ベンチマークの最先端を改善します。 0.67
2 Related Work Metric learning Metric learning aims to learn a metric such that positive pairs of examples are nearby and negative ones are far away. 2 関連作業 メトリクス学習 Metric Learningは、ポジティブなペアのサンプルが近く、ネガティブなペアが遠くにあるようなメトリックを学ぶことを目的としています。 0.69
In deep metric learning, we learn an explicit non-linear mapping from raw input to a low-dimensional embedding space [30], where the Euclidean distance has the desired properties. 深層メトリック学習では、ユークリッド距離が所望の特性を持つような、生入力から低次元埋め込み空間 [30] への明示的な非線形写像を学ぶ。 0.75
Although learning can be unsupervised [12], deep metric learning has mostly followed the supervised approach, where positive and negative pairs are defined as having the same or different class label, respectively [50]. 学習は教師なし [12] でもよいが, 深いメトリクス学習は, 正と負のペアがそれぞれ同一または異なるクラスラベルを持つものとして定義される, 教師付きアプローチにほぼ従っている [50]。 0.74
Loss functions can be distinguished into pair-based and proxy-based [29]. 損失関数はペアベースとプロキシベースの[29]に区別できる。 0.78
Pair-based losses use pairs of examples [12, 12, 49], which can be defined over triplets [15, 37, 46, 48], quadruples [4] or tuples [30, 38, 47]. ペアベース損失は、三重項 [15, 37, 46, 48] 、四重項 [4] またはタプル [30, 38, 47] 上で定義できる例 [12, 12, 49] のペアを使用する。 0.84
Proxy-based losses use one or more proxies per class, which are learnable parameters in the embedding space [20, 28, 31, 40, 57]. プロキシベースの損失は,組込み空間[20,28,31,40,57]で学習可能なパラメータであるクラス毎に1つ以上のプロキシを使用する。 0.75
Pair-based losses capture data-to-data relations, but they are sensitive to noisy labels and outliers. ペアベースの損失はデータ間の関係を捉えるが、ノイズの多いラベルや外れ値に敏感である。 0.55
They often involve terms where given constraints are satisfied, which produce zero gradients and do not contribute to training. 与えられた制約が満たされ、勾配がゼロになり、トレーニングに寄与しない用語がしばしば含まれる。 0.70
This necessitates mining of hard examples that violate the constraints, like semi-hard [37] and distance weighted [49]. これは、半ハード [37] や距離重み付け [49] といった制約に違反するハードな例の採掘を必要とする。 0.68
By contrast, proxy-based losses use data-to-proxy relations, assuming proxies can capture the global structure of the embedding space. 対照的に、プロキシベースの損失はデータ対プロキシの関係を使い、プロキシが埋め込み空間のグローバル構造を捉えることができると仮定する。 0.60
They involve less computations that are more likely to produce nonzero gradient, hence have less or no dependence on mining and converge faster. これらは非零勾配を生成する可能性が高い計算量が少なく、従って鉱業に依存し、より速く収束する。 0.74
Mixup Input mixup [55] linearly interpolates between two or more examples in the input space for data augmentation. mixup input mixup [55]は、データ拡張のための入力空間の2つ以上の例を線形に補間する。 0.81
Numerous variants take advantage of the structure of the input space to interpolate non-linearly, e g for images [6, 14, 18, 19, 32, 41, 53]. 多数の変種が入力空間の構造を利用して、画像 [6, 14, 18, 19, 32, 41, 53] に対して非直線的に e g を補間する。 0.74
Manifold mixup [43] interpolates intermediate representations instead, where the structure is learned. Manifold mixup [43] は代わりに中間表現を補間し、そこで構造が学習される。 0.70
This can be applied to or assisted by decoding back to the input space [1, 2, 25, 42, 56]. これは入力空間[1, 2, 25 42, 56]にデコードすることで適用または支援することができる。 0.76
In both cases, corresponding labels are linearly interpolated too. どちらの場合でも、対応するラベルも線形補間される。 0.70
Most studies are limited to cross-entropy loss for classification. ほとんどの研究は分類のためのクロスエントロピー損失に限定されている。 0.55
Pairwise loss functions have been under-studied, as discussed below. ペアワイズ損失関数は下記のように未検討である。 0.60
Interpolation for pairwise loss functions As discussed in subsection 3.3, interpolating target labels is not straightforward in pairwise loss functions. ペアワイズ損失関数の補間 3.3で述べたように、対象ラベルの補間はペアワイズ損失関数では単純ではない。 0.69
In deep metric learning, embedding expansion [21] and symmetrical synthesis [10] interpolate pairs of embeddings in a deterministic way ディープメトリック学習において,埋め込み拡大[21]と対称合成[10]は決定論的に組込みの対を補間する 0.82
2 2 0.85
英語(論文から抽出)日本語訳スコア
within the same class, applying to pair-based losses, while proxy synthesis [11] interpolates between classes, applying to proxy-based losses. 同じクラス内では、ペアベースの損失に適用し、プロキシ合成 [11] はクラス間で補間し、プロキシベースの損失に適用する。 0.63
None performs label interpolation, which means that [11] risks synthesizing false negatives when the interpolation factor λ is close to 0 or 1. ラベル補間は行わないので、補間係数 λ が 0 または 1 に近いとき、[11] が偽陰性合成のリスクを負う。 0.72
In contrastive representation learning, MoCHi [17] interpolates anchor with negative embeddings but not labels and chooses λ ∈ [0, 0.5] to avoid false negatives. 対照的な表現学習では、MoCHi [17] はアンカーを負の埋め込みで補間するがラベルは持たず、偽陰性を避けるためにλ ∈ [0, 0.5] を選択する。
訳抜け防止モード: 対照的な表現学習では、MoCHi [17 ] はラベルではなく負の埋め込みでアンカーを補間する λ ∈ [ 0, 0.5 ] 偽りの否定を避けるためです
0.72
This resembles thresholding of λ at 0.5 in OptTransMix [56]. これは OptTransMix [56] における 0.5 の λ のしきい値と似ている。 0.64
Finally, i-mix [24] interpolates pairs of anchor embeddings as well as their (virtual) class labels linearly. 最後に、i-mix [24]はアンカー埋め込みのペアと(仮想)クラスラベルを線形に補間する。 0.79
There is only one positive, while all negatives are clean, so it cannot take advantage of interpolation for relative weighting of positives/negatives per anchor [47]. 正は1つしか存在しないが、全ての負はクリーンであるため、アンカー[47]あたりの正/負の相対重み付けの補間は利用できない。 0.72
By contrast, our method is developed for deep metric learning and applies to a large class of both pair-based and proxy-based losses. 対照的に,本手法はディープメトリック学習のために開発され,ペアベースとプロキシベースの両方の損失の大きなクラスに適用される。 0.70
It can interpolate inputs, intermediate features or embeddings of anchors, (multiple) positives or negatives and the corresponding two-class (positive/negative) labels per anchor, such that relative weighting of positives/negatives depends on interpolation. 入力、中間特徴、アンカーの埋め込み、(多重)正または負、対応する2つのクラス(正/負)ラベルをアンカーごとに補間することができ、正/負の相対重み付けは補間に依存する。 0.63
3 Mixup for metric learning 3 メトリクス学習のためのミックスアップ 0.64
3.1 Preliminaries Problem formulation We are given a training set X ⊂ X , where X is the input space. 3.1 予備 問題定式化 私たちは、X が入力空間であるような訓練セット X を与えられる。 0.74
For each anchor a ∈ X, we are also given a set P (a) ⊂ X of positives and a set N (a) ⊂ X of negatives. それぞれのアンカー a ∈ X に対して、正の集合 P (a) = X と負の集合 N (a) = X も与えられる。 0.66
The positives are typically examples that belong to the same class as the anchor, while negatives belong to a different class. 正は典型的にはアンカーと同じクラスに属する例であり、負は異なるクラスに属する。 0.69
The objective is to train the parameters θ of a model f : X → Rd that maps input examples to a d-dimensional embedding, such that positives are close to the anchor and negatives are far away in the embedding space. 目的は、入力例をd次元埋め込みにマッピングするモデル f : X → Rd のパラメータ θ を、正がアンカーに近く、負が埋め込み空間において遠く離れるように訓練することである。 0.74
Given two examples x, x′ ∈ X , we denote by s(x, x′) the similarity between x, x′ in the embedding space, typically a decreasing function of Euclidean distance. 2つの例 x, x′ ∈ X が与えられたとき、埋め込み空間における x, x′ の類似性(典型的にはユークリッド距離の減少函数)を s(x, x′) で表す。 0.78
It is common to ℓ2-normalize embeddings and define s(x, x′) := hf (x), f (x′)i, which is the cosine similarity. 埋め込みを l2-正規化し、コサインの類似性である s(x, x′) := hf (x), f(x′)i を定義するのが一般的である。 0.72
To simplify notation, we drop the dependence of f, s on θ. 表記を単純化するために、θ 上の f, s の依存性をなくす。 0.66
Pair-based losses [12, 30, 46, 47] use both anchors and positives/negatives in X, as discussed above. 上述したように、ペアベース損失(12, 30, 46, 47)はXにおいてアンカーと正と負の両方を使用する。
訳抜け防止モード: pair - based loss [ 12, 30, 46, 47 ] use both anchors and positives / negatives in x, 上述の通り。
0.87
Proxy-based losses define one or more learnable proxies in Rd per class and only use proxies as anchors [20] or positives/negatives [28, 31, 40]. プロキシベースの損失は、クラス毎に1つ以上の学習可能なプロキシを定義し、プロキシをアンカー [20] またはポジティ/負のプロキシ [28, 31, 40] としてのみ使用する。
訳抜け防止モード: Proxy- based loss defined one or more learnable proxies in Rd per class プロキシのみをアンカー [20 ] またはポジティ/負 [28, 31, 40 ] として使用します。
0.84
To accommodate for uniform exposition, we extend the definition of similarity as s(v, x) := hv, f (x)i for v ∈ Rd, x ∈ X (proxy anchors) and s(x, v) := hf (x), vi for x ∈ X , v ∈ Rd (proxy positives/negatives) . 一様表現に対応するために、類似性の定義を s(v, x) := hv, f(x)i for v ∈ rd, x ∈ x (proxy anchors) and s(x, v) := hf (x), vi for x ∈ x , v ∈ rd (proxy positives/ negatives) として拡張する。 0.85
Finally, to accommodate for mixed embeddings in subsection 3.5, we define s(v, v′) := hv, v′i for v, v′ ∈ Rd. 最後に、第3.5節の混合埋め込みに対応するために、s(v, v′) := hv, v′i for v, v′ ∈ Rd を定義する。 0.74
Thus, we define s : (X ∪ Rd)2 → R over pairs of either inputs in X or embeddings in Rd. したがって、X の入力と Rd の埋め込みのペアに対して s : (X ) Rd)2 → R を定義する。 0.73
We discuss a few representative loss functions below, before deriving a generic form. 一般的な形式を導出する前に、以下のいくつかの代表損失関数について論じる。 0.54
Contrastive The contrastive loss [12] encourages positive examples to be pulled towards the anchor and negative examples to be pushed away by a margin m ∈ R. This loss is additive over positives and negatives, defined as 対照的に、対照損失 [12] は、正の例をアンカーに向けて引き出すことを奨励し、負の例をマージン m ∈ r に押す。 0.52
ℓcont(a; θ) := Xp∈P (a) lcont(a; θ) := Xp・P(a) 0.86
−s(a, p) + Xn∈N (a) -s(a, p) + Xn~N(a) 0.79
[s(a, n) − m]+. [s(a, n) − m]+ である。 0.86
(1) (2) Multi-Similarity The multi-similarity loss [47] introduces relative weighting to encourage positives (negatives) that are farthest from (closest to) the anchor to be pulled towards (pushed away from) the anchor by a higher weight. (1) (2) 多重相似性 多重相似性損失 [47] は相対的な重み付けを導入し、アンカーがより重い重みでアンカーに向かって引かれる(引き離される)のに最も遠い(最も近い)正(負)を奨励する。 0.83
This loss is not additive over positives and negatives: この損失は正と負に対して加法的ではない。 0.56
ℓMS(a; θ) := lMS(a; θ) := 0.85
1 β log 1 + Xp∈P (a) 1 β log1 + xp4p (a) 0.74
e−β(s(a,p)−m)  + e-β(s(a,p)−m) ~ + 0.92
1 γ log 1 + Xn∈N (a) 1 γ 対数 1 + xn ≤n (a) 0.76
eγ(s(a,n)−m)  . eγ(s(a,n)−m) である。 0.84
Here, β, γ ∈ R are scaling factors for positives, negatives respectively. ここで、β と γ ∈ R はそれぞれ正、負のスケーリング因子である。 0.80
Proxy Anchor The proxy anchor loss [20] defines a learnable proxy in Rd for each class and only uses proxies as anchors. Proxy Anchorプロキシアンカー損失[20]は、各クラスのRdで学習可能なプロキシを定義し、プロキシのみをアンカーとして使用する。 0.74
For a given anchor (proxy) a ∈ Rd, the loss has the same form as (2), although similarity s is evaluated on Rd × X . 与えられたアンカー(プロキシ) a ∈ Rd に対して、損失は (2) と同じ形式であるが、類似性 s は Rd × X 上で評価される。 0.85
3.2 Generic loss formulation 3.2 汎用的損失定式化 0.54
We observe that both additive (1) and non-additive (2) loss functions involve a sum over positives P (a) and a sum over negatives N (a). 我々は、加法(1)と非加法(2)の損失関数の両方が、正の P (a) 上の和と負の N (a) 上の和を含むことを観察する。
訳抜け防止モード: 我々は加法 ( 1 ) と非加法 ( 2 ) の両方の損失関数が正の P ( a ) に対する和を含むことを観察する。 および負の N ( a ) に対する和。
0.77
They also involve a decreasing function of similarity s(a, p) また、類似度 s(a, p) の減少関数も含む。 0.84
3 3 0.85
英語(論文から抽出)日本語訳スコア
LOSS ANCHOR POS/NEG τ (x) LOSS Anchor POS/NEG τ (x) 0.77
Contrastive [12] Lifted structure [15] Binomial deviance [52] Multi-similarity [47] 対比[12]リフテッド構造[15]二項偏差[52]多相性[47] 0.81
Proxy anchor [20] NCA [8] ProxyNCA [28] ProxyNCA++ [40] プロキシアンカー [20] NCA [8] ProxyNCA [28] ProxyNCA++ [40] 0.91
X X X X proxy X X X X プロキシ 0.76
X X X X X X X X X X X X X X 0.85
X X proxy proxy X‐X proxy プロキシ 0.79
x [x]+ x x x [x]+ x x 0.79
x x x x σ+(x) x x x x x σ+(x) 0.98
x log(x) log(1 + x) 1 β log(1 + x) 1 β log(1 + x) x log(x) log(1 + x) 1 β log(1 + x) 1 β log(1 + x) 0.85
− log(x) − log(x) − log(x) − log(x) − log(x) − log(x) 0.85
σ−(x) x log(x) σ−(x) x log(x) 0.89
log(x) log(x) log(x) log(x) log(x) log(x) 0.85
e−β(x−m) log(1 + x) γ log(1 + x) e−β(x−m) 1 γ log(1 + x) e−β(x−m) e−β(x−m) log(1 + x) γ log(1 + x) e−β(x−m) 1 γ log(1 + x) e−β(x−m) 0.87
1 ρ+(x) ρ−(x) 1 ρ+(x) ρ−(x) 0.94
−x e−x ex ex ex/T -xe−x ex ex ex ex/T 0.63
[x − m]+ ex−m eγ(x−m) eγ(x−m) eγ(x−m) [x − m]+ ex−m eγ(x−m) eγ(x−m) eγ(x−m) 0.69
ex ex ex/T ex ex ex ex/T 0.66
Table 1: Loss functions. Anchor/positive/nega tive: X: embedding of input example from training set X by f ; proxy: learnable parameter in Rd ; T : temperature. 表1: 損失関数。 アンカー/正/負: x: トレーニングセット x からの入力サンプルの埋め込み f ; proxy: learnable parameter in rd ; t : temperature。 0.75
All loss functions are encompassed by (3) using the appropriate definition of functions τ, σ+, σ−, ρ+, ρ− as given here. すべての損失関数は (3) で包含され、ここで与えられる関数 τ, σ+, σ−, ρ+, ρ− の適切な定義を用いる。 0.85
for each positive p ∈ P (a) and an increasing function of similarity s(a, n) for each negative n ∈ N (a). 各正の p ∈ P (a) に対して、および各負の n ∈ N (a) に対して類似性の関数 s(a, n) が増加する。 0.83
Let us denote by ρ+, ρ− this function for positives, negatives respectively. ρ+, ρ− をそれぞれ負の正の関数とする。 0.62
Then, non-additive functions differ from additive by the use of a nonlinear function σ+, σ− on positive and negative terms respectively, as well as possibly another nonlinear function τ on their sum: すると、非加法関数は、正および負の項でそれぞれ非線形関数 σ+ と σ− を用いることで加法関数と異なる。
訳抜け防止モード: すると、非加法函数は、非線形函数 σ+ を用いて加法と異なる。 σ− それぞれ正の項と負の項について、またその和の別の非線形函数τ :
0.83
σ+ ℓ(a; θ) := τ  Xp∈P (a) シュσ+> l(a; θ) := τ> > Xp~P(a) 0.66
ρ+(s(a, p)) ρ+(s(a, p)) である。 0.89
 + σ−  Xn∈N (a)  + σ− エー・Xn・N(a) 0.64
ρ−(s(a, n))  ρ−(s(a, n)) である。 0.95
  . (3) With the appropriate choice for τ, σ+, σ−, ρ+, ρ−, this definition encompasses contrastive (1), multi-similarity (2) or proxy-anchor as well as many pair-based or proxy-based loss functions, as shown in Table 1.   . (3) τ, σ+, σ−, ρ+, ρ− の適切な選択により、この定義は、表 1 に示すように、コントラスト (1), multi- similarity (2) あるいは proxy-anchor および多くのペアベースまたはプロキシベースの損失関数を含む。 0.85
It does not encompass the triplet loss [46], which operates on pairs of positives and negatives, forming triplets with the anchor. 正と負の対で作用する三重項損失 [46] は包含せず、アンカーと共に三重項を形成する。 0.66
The triplet loss is the most challenging in terms of mining because there is a very large number of pairs and only few contribute to the loss. 三重項損失は、非常に多くのペアが存在し、その損失に寄与するものは少ないため、鉱業の面では最も困難である。 0.76
We only use function τ to accommodate for lifted structure [15, 30], where τ (x) := [x]+ is reminiscent of the triplet loss. ここで τ (x) := [x]+ が三重項損失を思い起こさせるような、上げられた構造 [15, 30] に対応する関数 τ のみを用いる。 0.82
We observe that multi-similarity [47] differs from binomial deviance [52] only in the weights of the positive and negative terms. 多相性 [47] と二項偏差 [52] は正の項と負の項の重みにのみ異なることが観察された。 0.77
Proxy anchor [20] is a proxy version of multisimilarity [47] on anchors and ProxyNCA [28] is a proxy version of NCA [8] on positives/negatives. Proxy anchor [20] はアンカー上の多重相似性のプロキシバージョン [47] であり、ProxyNCA [28] は正の値/負の NCA [8] のプロキシバージョンである。 0.82
This generic formulation highlights the components of the loss functions that are additive over positives/negatives and paves the way towards incorporating mixup. この一般的な定式化は、プラス/負に対して付加的な損失関数の構成要素を強調し、ミックスアップを組み込むための道を開く。 0.53
3.3 Improving representations using mixup 3.3 Mixup による表現の改善 0.65
To improve the learned representations, we follow [43, 55] in mixing inputs and features from intermediate network layers, respectively. 学習表現を改善するために,中間ネットワーク層からの入力と特徴の混合において[43,55]に従う。 0.85
Both are developed for classification. どちらも分類のために開発された。 0.56
Input mixup [55] augments data by linear interpolation between a pair of input examples. 入力混合[55]は、一対の入力例間の線形補間によってデータを増大させる。 0.73
Given two examples x, x′ ∈ X , we draw λ ∼ Beta(α, α) as interpolation factor and mix x with x′ using the standard mixup operation mixλ(x, x′) := λx + (1 − λ)x′. 2つの例 x, x′ ∈ x が与えられると、λ を補間因子として描画し、標準混合演算mixλ(x, x′) := λx + (1 − λ)x′ を用いて x′ と x′ を混合する。 0.84
Manifold mixup [43] linearly interpolates between intermediate representations (features) of the network instead. 多様体ミックスアップ [43] はネットワークの中間表現(特徴)を線形に補間する。 0.82
Referring to 2D images, we define gm : X → Rc×w×h as the mapping from the input to intermediate layer m of the network and fm : Rc×w×h → Rd as the mapping from intermediate layer m to the embedding, where c is the number of channels (feature dimensions) and w × h is the spatial resolution. 2次元画像を参照して、gm : x → rc×w×h をネットワークの入力層から中間層 m への写像として定義し、fm : rc×w×h → rd を中間層 m から埋め込みへの写像として定義する。
訳抜け防止モード: 2d画像を参照。 gm : x → rc×w×h を入力層から中間層 m への写像として定義し、fm : rc×w×h → rd を中間層 m から埋め込みへの写像として定義する。 ここで c はチャネルの数(特徴次元)である。 w × h は空間分解能です
0.75
Thus, our model f can be expressed as the composition f = gm ◦ fm. したがって、我々のモデル f は合成 f = gm > fm として表すことができる。 0.74
For manifold mixup, we follow [42] and mix either features of intermediate layer m or the final embeddings. 多様体の混合について、[42] に従い、中間層 m の特徴と最終埋め込みを混合する。 0.70
Thus, we define three mixup types in total: したがって、3つの混合型を総じて定義する。 0.71
fλ(x, x′) :=  fλ(x, x′) :=> 0.92
f (mixλ(x, x′)), fm(mixλ(gm(x), gm(x′))), mixλ(f (x), f (x′)), f(mixλ(x, x′)), fm(mixλ(gm(x), gm(x′))), mixλ(f(x), f(x′)) 0.76
input mixup feature mixup embedding mixup. 入力ミックスアップ機能 ミックスアップ埋め込みミックスアップ。 0.58
(4) Function fλ : X 2 → Rd performs both mixup and embedding. (4) 函数 fλ : X 2 → Rd は混合と埋め込みの両方を実行する。 0.81
We explore different mixup types in subsection 4.4. 第4節4で、異なるミックスアップタイプを調べます。 0.41
4 4 0.85
英語(論文から抽出)日本語訳スコア
3.4 Label representation Classification In supervised classification, each example x ∈ X is assigned an one-hot encoded label y ∈ {0, 1}C, where C is the number of classes. 3.4 ラベル表現 分類 教師付き分類において、各例 x ∈ X は C がクラスの数であるような 1-ホット符号化ラベル y ∈ {0, 1}C に割り当てられる。 0.77
Label vectors are also linearly interpolated: Given two labeled examples (x, y), (x′, y′), the interpolated label is mixλ(y, y′). 2つのラベル付き例 (x, y), (x′, y′) が与えられたとき、補間されたラベルはmixλ(y, y′) である。 0.72
The loss (crossentropy) is a continuous function of the label vector. 損失(クロスエントロピー)はラベルベクトルの連続函数である。 0.72
We extend this idea to metric learning. このアイデアをメトリクス学習に拡張します。 0.65
Metric learning Positives P (a) and negatives N (a) of anchor a are defined as having the same or different class label as the anchor, respectively. アンカーaの計量学習正のp(a)と負のn(a)はそれぞれアンカーと同じまたは異なるクラスラベルを持つものと定義される。 0.72
To every example in P (a) ∪ N (a), we assign a binary (two-class) label y ∈ {0, 1}, such that y = 1 for positives and y = 0 for negatives: p (a) のすべての例に対して、二項(二級)ラベル y ∈ {0, 1} を割り当て、y = 1 を正に、y = 0 を負に割り当てる。
訳抜け防止モード: p ( a ) で n ( a ) のすべての例に当てはまる。 二項 (2 - class ) ラベル y ∈ { 0, を割り当てる。 1 (複数形 1s) 正のy = 1 負の場合は y = 0 である。
0.82
U +(a) := {(p, 1) : p ∈ P (a)} U −(a) := {(n, 0) : n ∈ N (a)} u +(a) := {(p, 1) : p ∈ p(a)} u −(a) := {(n, 0) : n ∈ n(a)} 0.79
(5) (6) Thus, we represent both positives and negatives by U (a) := U +(a) ∪ U −(a). (5) (6) したがって、U (a) := U +(a) > U −(a) によって正と負の両方を表す。 0.85
We now rewrite the generic loss function (3) as 現在、ジェネリック損失関数 (3) を書き換える。 0.56
ℓ(a; θ) := τ σ+  X(x,y)∈U(a) l(a; θ) := τ, σ+, x(x,y) ∈u(a) 0.85
yρ+(s(a, x)) yρ+(s(a, x)) 0.91
 + σ−  X(x,y)∈U(a)  + σ− X(x,y)~U(a) 0.73
(1 − y)ρ−(s(a, x))  (1 − y)ρ−(s(a, x)) である。 0.92
  . (7) Here, every labeled example (x, y) in U (a) appears in both positive and negative terms.   . (7) ここでは、U (a) のラベル付き例 (x, y) はすべて正項と負項の両方に現れる。 0.82
However, because label y is binary, only one of the two contributions is nonzero. しかし、ラベル y はバイナリであるため、2つのコントリビューションのうちの 1 つは 0 でない。 0.58
Now, in the presence of mixup, we can linearly interpolate labels exactly as in classification. さて、ミックスアップの存在下では、分類のようにラベルを線形に補間することができる。 0.68
3.5 Mixed loss function 3.5 混合損失関数 0.77
Mixup For every anchor a, we are given a set M (a) of pairs of examples to mix. 混合 任意のアンカー a に対して、混合するサンプルの組 M (a) が与えられる。 0.65
This is a subset of (S(a) ∪ U (a)) × U (a) where S(a) := (a, 1). S(a) := (a, 1) のとき、これは (S(a) > U (a)) × U (a) の部分集合である。 0.80
That is, we allow mixing between positive-negative, positive-positive and negative-negative pairs, where the anchor itself is also seen as positive. すなわち、アンカー自体が正であると見なされる正負、正負、負負のペアを混合することができる。 0.61
We define the possible choices of mixing pairs M (a) in subsection 4.1 and we assess them in subsection 4.4. 第4節1でペア M(a) を混合することの可能な選択を定義し,第4節4で評価する。 0.56
Let V (a) be the set of corresponding labeled mixed embeddings V (a) を対応するラベル付き混合埋め込みの集合とする。 0.83
V (a) := {(fλ(x, x′), mixλ(y, y′)) : ((x, y), (x′, y′)) ∈ M (a), λ ∼ Beta(α, α)}, V(a) := {(fλ(x, x′), mixλ(y, y′)) : ((x, y), (x′, y′)) ∈ M(a), λ > Beta(α, α)} である。 0.87
(8) examples takes exactly the same form as (7), with only U (a) replaced by V (a): (8) 例では (7) と全く同じ形をとり、u (a) のみが v (a) に置き換えられる。 0.80
where fλ is defined by (4). ここで fλ は (4) で定義される。 0.73
With these definitions in place, the generic loss functioneℓ over mixed σ+ eℓ(a; θ) := τ  X(v,y)∈V (a) これらの定義が成り立つと、混合 σ+> el(a; θ) := τ> > X(v,y)~V(a) 上の一般損失関数が成立する。 0.69
(1 − y)ρ−(s(a, v))  (1 − y)ρ−(s(a, v)) = ... 0.97
yρ+(s(a, v)) yρ+(s(a, v)) 0.91
 + σ−  X(v,y)∈V (a)  + σ− X(v,y)・V(a) 0.73
  , (9) where similarity s is evaluated on X × Rd for pair-based losses and Rd × Rd for proxy anchor.   , (9) 類似度 s は x × rd でペアベース損失、rd × rd でプロキシアンカーが評価される。 0.81
Now, every labeled embedding (v, y) in V (a) appears in both positive and negative terms and both contributions are nonzero for positive-negative pairs, because after interpolation, y ∈ [0, 1]. 現在、v (a) 内のすべてのラベル付き埋め込み (v, y) は正の項と負の項の両方に現れ、両方の寄与は正の負の対に対して非零である。 0.73
Error function Parameters θ are learned by minimizing the error function, which is a linear combination of the clean loss (3) and the mixed loss (9), averaged over all anchors 誤差関数パラメータθは、すべてのアンカーの平均値であるクリーン損失(3)と混合損失(9)の線形結合である誤差関数を最小化することによって得られる。 0.86
where w ≥ 0 is the mixing strength. ここで w ≥ 0 は混合強度である。 0.81
At least for manifold mixup, this combination comes at little additional cost, since clean embeddings are readily available. 少なくとも多様体の混合では、クリーンな埋め込みが容易に利用できるため、この組み合わせは追加コストが少なくなる。 0.67
E(X; θ) := E(X; θ) := 0.85
1 |X| Xa∈X ℓ(a; θ) + weℓ(a; θ), 1 |X|Xa・X l(a; θ) + wel(a; θ) 0.68
(10) 3.6 Analysis: Mixed embeddings and positivity (10) 3.6 分析:混合埋め込みと肯定 0.82
Let Pos(a, v) be the event that a mixed embedding v behaves as “positive” for anchor a, i.e., minIn subsection A.2, we explain that Pos(a, v) を混合埋め込み v がアンカー a,すなわち minIn subsection A.2 に対して “陽性” として振る舞う事象とする。
訳抜け防止モード: Pos(a, v ) を混合埋め込み v がアンカー a に対して “ positive ” として振る舞う事象とする。 I.e., minIn subsection A.2,
0.78
imizing the loss eℓ(a; θ) will increase the similarity s(a, v). 損失 el(a; θ) をイミングすると類似度 s(a, v) が増加する。 0.82
this “positivity” is equivalent to ∂eℓ(a; θ)/∂s(a, v) ≤ 0. この「肯定」は ∂el(a; θ)/∂s(a, v) ≤ 0 と等価である。 0.84
Under positive-negative mixing, i.e., 正負混合、すなわち正負混合下で 0.72
5 5 0.85
英語(論文から抽出)日本語訳スコア
M (a) ⊂ U +(a) × U −(a), we then estimate the probability of Pos(a, v) as a function of λ in the case of multi-similarity (2) with a single mixed embedding v: すると、多相性 (2) の場合の λ の関数として Pos(a, v) の確率を 1 つの混合埋め込み v {\displaystyle v} で推定する。
訳抜け防止モード: M ( a ) > U + ( a ) × U −(a ) 次に、Pos(a , v ) の確率を、多重類似性 (2 ) の場合のλ の関数として、単一の混合埋め込み v : で見積もる。
0.81
P(Pos(a, v)) = Fλ(cid:18) 1 P(Pos(a, v)) = Fλ(cid:18) 1 0.99
β + γ ln(cid:18) λ β + γ ln(cid:18) λ 0.87
1 − λ(cid:19) + m(cid:19) , 1 − λ(cid:19) + m(cid:19) , 0.90
(11) where Fλ is the CDF of similarities s(a, v) between anchors a and mixed embeddings v with interpolation factor λ. (11) Fλ はアンカー a と補間係数 λ との混合埋め込み v の類似性 s(a, v) の CDF である。 0.84
In Figure 2, we measure the probability of Pos(a, v) as a function of λ in two ways, both purely empirically and theoretically by (11). 図2では、Pos(a, v) の確率を λ の函数として、純粋に経験的かつ理論的に (11) によって2つの方法で測る。 0.80
Both measurements are increasing functions of λ of sigmoidal shape and they confirm that a mixed embedding is mostly positive for λ close to 1 and mostly negative for λ close to 0. どちらの測定もシグモダル形状のλの関数の増加であり、混合埋め込みは 1 に近い λ に対して主に正であり、0 に近い λ に対してほとんど負であることを確認する。 0.72
4 Experiments 4.1 Setup 4つの実験 4.1 設定 0.66
Datasets We experiment on CaltechUCSD Birds (CUB200) [45], Stanford Cars (Cars196) [23], Stanford Online Products (SOP) [30] and In-Shop Clothing retrieval (In-Shop) [26] image datasets. Datasets We experiment on CaltechUCSD Birds (CUB200) [45], Stanford Cars (Cars196) [23], Stanford Online Products (SOP) [30], In-Shop Clothing Search (In-Shop) [26] image datasets。 0.88
More details are in subsection B.1. 詳細はB.1節を参照。 0.73
Network, features and embeddings We use Resnet-50 [13] (R-50) pretrained on ImageNet [35] as a backbone network. ネットワーク、機能、組み込み バックボーンネットワークとしてimagenet [35]で事前トレーニングされたresnet-50 [13] (r-50)を使用する。 0.70
We obtain the intermediate representation (feature), a 7 × 7 × 2048 tensor, from the last convolutional layer. 最後の畳み込み層から 7 × 7 × 2048 のテンソルである中間表現 (Feature) を得る。 0.64
Following [20], we combine adaptive average pooling with max pooling, followed by a fullyconnected layer to obtain the embedding of d = 512 dimensions. 20] に従えば、適応的な平均プールと最大プールを組み合わせ、さらに全連結層を組込み、d = 512次元の埋め込みを得る。 0.67
) ) v , a ( s o P ( P ( ) v , a ( s o p ( p ) 0.84
1 0.8 0.6 0.4 1 0.8 0.6 0.4 0.65
0.2 0 0 empirical theoretical 0.2 0 0 実証理論 0.74
0.2 0.4 0.6 0.2 0.4 0.6 0.59
0.8 1 λ Figure 2: λ. 0.8 1 λ 図2:λ。 0.76
We measure P(Pos(a, v)) P(Pos(a, v))を測る 0.73
“Positivity” of mixed embeddings vs. as 混合埋め込みの「正当性」対「混合埋め込み」 0.60
empirically P(∂eℓMS(a; θ)/∂s(a, v) ≤ 0) and theoretically by (11), 経験的に P(∂elMS(a; θ)/∂s(a, v) ≤ 0) および理論的には (11) による。 0.63
where Fλ is again measured from data. Fλはデータから再び測定される。 0.84
We use embedding mixup on MS (2) on CUB200 at epoch 0, according to the setup of subsection 4.1. 第4節第1節の設定に従って,cub200 の cub200 における ms (2) への埋め込み混合を用いる。
訳抜け防止モード: epoch 0 において CUB200 上の MS (2 ) 上の埋め込みミックスアップを利用する。 第4.1条の規定により
0.67
Loss functions We reproduce contrastive (Cont) [12], multi-similarity (MS) [47] and proxy anchor (PA) [20] and we evaluate them under different mixup types. 損失関数 私たちは、コントラスト(Cont)[12]、多重相似性(MS)[47]、プロキシアンカー(PA)[20]を再現し、それらを異なる混合型で評価する。 0.70
For MS (2), we use β = 18, γ = 75 and m = 0.77. MS (2) に対して、β = 18, γ = 75, m = 0.77 を用いる。 0.92
For PA, we use β = γ = 32 and m = 0.1. PA には β = γ = 32 と m = 0.1 を用いる。 0.89
As baselines, we reproduce and compare with triplet [48], lifted structure [30], ProxyNCA [28], margin [49] and SoftTriple [31] losses, without mixup. ベースラインとして,3重項[48],昇降構造[30],ProxyNCA[28],マージン[49],SoftTriple[31]の損失を混合することなく再現し比較した。 0.80
By reporting published results, we also compare with D&C [36], EPSHN [51] and ProxyNCA++ [40] on the four datasets and PA [20] on CUB200 and Cars196. 公開結果を報告することで、4つのデータセットでd&c [36]、epshn [51]、proxynca++ [40]、cub200とcars196でpa [20]と比較した。
訳抜け防止モード: 公開された結果を報告することによって、D&C [36] と比較する。 4つのデータセット上のEPSHN [51 ]とProxyNCA++ [40 ] CUB200 および Cars196 上の PA [20 ]。
0.77
Details on training are in subsection B.1. 訓練の詳細はb.1に記載する。 0.72
Methods We compare our method, Metrix, with proxy synthesis (PS) [11] and MoCHi [17]. メソッド メソッド Metrix とプロキシ合成 (PS) [11] と MoCHi [17] を比較します。 0.68
For PS, we adapt the official code1 to PA on all datasets, and use it with PA only, because it is designed for proxy-based losses. PSでは、すべてのデータセットで公式のcode1をPAに適応させ、プロキシベースの損失のために設計されているため、PAでのみ使用します。 0.59
PS has been shown superior to [10, 21], although in different networks. PSは[10, 21]より優れていますが、ネットワークは違います。 0.73
MoCHi and i-mix [24] are meant for contrastive representation learning, but we do compare with our reproduction of MoCHi. MoCHi と i-mix [24] は対照的な表現学習を目的としているが,MoCHi の再現と比較する。 0.80
We evaluate using Recall@K [30]. Recall@K[30]を使って評価する。 0.78
4.2 Mixup settings In mixup for classification, given a batch of n examples, it is standard to form n pairs of examples by pairing the batch with a random permutation of itself, resulting in n mixed examples, either for input or manifold mixup. 4.2 混合設定 分類のミックスアップでは、n個の例のバッチが与えられると、バッチを自身のランダムな置換と組み合わせて n個の例のペアを形成するのが標準であり、入力または多様体のミックスアップのいずれにおいても、n個の混合例が生成される。 0.68
In metric learning, it is common to obtain n embeddings and then use all 1 2 n(n − 1) pairs of embeddings in computing the loss. 計量学習では、n 個の埋め込みを取得し、1 2 n(n − 1) 個の埋め込みの全てを損失の計算に使用するのが一般的である。
訳抜け防止モード: 計量学習において,n組込みを得るのが一般的である そして損失を計算するために、すべての 1 2 n(n − 1 ) 個の埋め込みを用いる。
0.78
We thus treat mixup types differently. したがって、ミックスアップのタイプは異なる。 0.56
Input mixup Mixing all pairs would be computationally expensive in this case, because we would compute 1 2 n(n − 1) embeddings. すべてのペアを混合する入力混合は、1 2 n(n − 1) 埋め込みを計算するので、この場合計算に費用がかかる。 0.79
A random permutation would not produce as many hard examples ランダムな置換は、多くの難しい例を生み出しない 0.73
1https://github.com/ navervision/proxy-sy nthesis 1https://github.com/ navervision/proxy- synthesis 0.31
6 6 0.85
英語(論文から抽出)日本語訳スコア
as can be found in all pairs. すべてのペアで見られるように。 0.61
Thus, for each anchor (each example in the batch), we use the k hardest negative examples and mix them with positives or with the anchor. したがって、各アンカー(バッチの各例)に対して、k の最も難しい負の例を使用して、それらを正またはアンカーと混合します。 0.69
We use k = 3 by default. k = 3 をデフォルトで使用する。 0.80
Manifold mixup Originally, manifold mixup [43] focuses on the first few layers of the network. manifold mixup もともとは manifold mixup [43] はネットワークの最初の数層に焦点を当てていた。 0.83
Mixing all pairs would then be even more expensive than input mixup, because intermediate features (tensors) are even larger than input examples. すべてのペアを混ぜると、中間機能(テンソル)が入力例よりも大きいため、入力ミックスアップよりもさらに高価になる。 0.82
Hence, we focus on the last few layers instead, where features and embeddings are compact, and we mix all pairs. したがって、機能と埋め込みがコンパクトで、すべてのペアが混在する、最後のいくつかのレイヤにフォーカスします。 0.64
We use feature mixup by default and call it Metrix/feature or just Metrix, while input and embedding mixup are called Metrix/input and Metrix/embed, respectively. デフォルトでは機能ミックスアップを使用し、それをMetrix/featureまたは単にMetrixと呼び、入力と埋め込みミックスアップはそれぞれMetrix/inputとMetrix/embedと呼ばれます。 0.70
All options are studied in subsection 4.4. 全オプションは4.4で検討される。 0.67
Mixing pairs Whatever the mixup type, we use clean examples as anchors and we define a set M (a) of pairs of examples to mix for each anchor a, with their labels (positive or negative). ペアの混合 混合型が何であれ、クリーンな例をアンカーとして使用し、各アンカー a に対して、ラベル (正あるいは負の) を混合するサンプルのセット M (a) を定義します。 0.78
By default, we mix positive-negative or anchor-negative pairs, according to M (a) := U +(a) × U −(a) and M (a) := S(a) × U −(a), respectively, where U −(a) is replaced by hard negatives only for input mixup. デフォルトでは、M (a) := U +(a) × U −(a) と M (a) := S(a) × U −(a) にしたがって正負あるいはアンカー負のペアを混合する。
訳抜け防止モード: デフォルトでは、正の-負またはアンカーの-負のペアを混合します。 M ( a ) : = U + ( a ) × U −(a ) そして M ( a ) : = S(a ) × U −(a ) それぞれ、U −(a ) を入力ミックスアップにのみハード負に置き換える。
0.86
The two options are combined by choosing uniformly at random in each iteration. 2つのオプションは、各イテレーションでランダムに選択することで組み合わせる。 0.76
More options are studied in subsection 4.4. 以下の4.4でより多くの選択肢が研究されている。 0.42
Hyper-parameters For any given mixup type or set of mixup pairs, the interpolation factor λ is drawn from Beta(α, α) with α = 2. ハイパーパラメータ 任意の混合型や混合ペアの集合に対して、補間係数 λ は β(α, α) から α = 2 で引き出される。 0.81
We empirically set the mixup strength (10) to w = 0.4 for positive-negative pairs and w = 0.3 for anchor-negative pairs. 混合強度(10)を正負対でw = 0.4、アンカー負対でw = 0.3と実験的に設定する。 0.68
4.3 Results Improving the state-of-the-art As shown in Table 2, Metrix consistently improves the performance of all baseline losses (Cont, MS, PA) across all datasets. 4.3 結果 表2に示すように、Metrixは、すべてのデータセットにおけるすべてのベースライン損失(Cont、MS、PA)のパフォーマンスを一貫して改善します。 0.66
More results in subsection B.2 reveal that the same is true for Metrix/input and Metrix/embed too. B.2 節のさらなる結果は、Metrix/input と Metrix/embed も同様であることを示している。 0.71
Surprisingly, while baseline PA outperforms MS, MS outperforms PA under mixup on all datasets but SOP, where the two losses are on par. 驚くべきことに、ベースラインのPAはMSより優れていますが、MSはすべてのデータセットでPAよりもパフォーマンスが優れています。 0.49
Both contrastive and MS are significantly improved by mixup. コントラストもMSもミックスアップによって大幅に改善されている。 0.46
By contrast, improvements on PA are marginal, which may be due to the already strong performance of PA, or further improvement is possible by employing different mixup methods that take advantage of the image structure. 対照的に、PAの改善は限界であり、これは既にPAの強い性能のためかもしれないし、画像構造を活かした様々な混合手法を用いることでさらに改善できるかもしれない。 0.58
In terms of Recall@1, our MS+Metrix is best overall, improving by 3.6% (67.8 → 71.4) on CUB200, 1.8% (87.8 → 89.6) on Cars196, 4.1% (76.9 → 81.0) on SOP and 2.1% (90.1 → 92.2) on In-Shop. Recall@1では、当社のMS+MetrixがCUB200で3.6%(67.8 → 71.4)、Cars196で1.8%(87.8 → 89.6)、SOPで4.1%(76.9 → 81.0)、In-Shopで2.1%(90.1 → 92.2)改善されている。 0.67
The same solution sets new state-of-the-art, outperforming the previously best PA by 1.7% (69.7 → 71.4) on CUB200, MS by 1.8% (87.8 → 89.6) on Cars196, ProxyNCA++ by 0.3% (80.7 → 81.0) on SOP and SoftTriple by 1.2% (91.0 → 92.2) on In-Shop. CUB200では1.7%(69.7 → 71.4)、カース196ではMSが1.8%(87.8 → 89.6)、SOPではProxyNCA++が0.3%(80.7 → 81.0)、In-ShopではSoftTripleが1.2%(91.0 → 92.2)である。 0.66
Importantly, while the previous state-of-the-art comes from a different loss per dataset, MS+Metrix is almost consistently best across all datasets. 重要なことは、以前の最先端はデータセット毎の損失が異なるが、MS+Metrixはすべてのデータセットでほぼ一貫してベストである。 0.60
Alternative mixing methods In Table 3, we compare our Metrix/embed with MoCHi [17] using contrastive loss and with PS [11] using PA on Cars196. テーブル3の代替混合法では, コントラスト損失を用いてmetrix/embedをmochi [17],cars196でpaを用いたps [11]と比較した。 0.70
Both mix embeddings only, while labels are always negative. 両方が組込みのみを混合し、ラベルは常に負である。 0.62
In MoCHi, the anchor is clean and we mix negative-negative (U −(a)2) and anchor-negative (S(a) × U −(a)) pairs, where U −(a) is replaced by k = 100 hardest negatives and λ ∈ (0, 0.5) for anchor-negative. 餅では、アンカーはきれいで、負負の (u −(a)2) とアンカー負の (s(a) × u −(a)) 対を混合し、ここで u −(a) は k = 100 の最も硬い負と λ ∈ (0, 0.5) に置き換えられる。 0.78
PS mixes embeddings of different classes and treat them as new classes. PSは異なるクラスの埋め込みを混合し、それらを新しいクラスとして扱う。 0.64
For clean anchors, this corresponds to positive-negative (U +(a) × U −(a)) and negativenegative (U −(a)2) mixing pairs, but PS also supports mixed anchors. クリーンアンカーの場合、これは正負(U +(a) × U −(a))と負負(U −(a)2)の混合対に対応するが、PSは混合アンカーもサポートする。 0.80
In terms of Recall@1, our Metrix/embed outperforms MoCHI with anchor-negative pairs by 1.2% (65.2 → 66.4) on CUB200, 1.4% (82.5 → 83.9) on Cars196, 0.9% (75.8 → 76.7) and 1.2% (87.2 → 88.4) on In-Shop. Recall@1では、我々のMetrix/embedはCUB200上で1.2%(65.2 → 66.4)、Cars196で1.4%(82.5 → 83.9)、In-Shopで0.9%(75.8 → 76.7)、そして1.2%(87.2 → 88.4)でMoCHIを上回っている。 0.61
The gain over MoCHi with negative-negative pairs is significantly higher. 負の負の対を持つ MoCHi に対する利得は著しく高い。 0.61
Metrix/embed also outperforms PS by 0.4% (70.0 → 70.4) on CUB200, 1% (87.9 → 88.9) on Cars196, 1% (79.6 → 80.6) on SOP and 1.3% (90.3 → 91.6) on In-Shop. CUB200ではMetrix/embedが0.4%(70.0 → 70.4)、Cars196では1%(87.9 → 88.9)、SOPでは1%(79.6 → 80.6)、In-Shopでは1.3%(90.3 → 91.6)を上回っている。 0.59
4.4 Ablations 4.4アブレーション 0.63
We perform ablations on Cars196 using R-50 with d = 512, applying mixup on contrastive loss. R-50 と d = 512 を用いて Cars196 上で Ablations を行い, コントラスト損失にミキサアップを適用した。 0.63
More ablations are in subsection B.3. さらなる廃止はB.3条にある。 0.47
Hard negatives We study the effect of the number k of hard negatives using different mixup types. 強陰性 異なる混合型を用いた強陰性数 k の効果について検討する。
訳抜け防止モード: 強陰性 私たちは強負数 k の効果を研究する 様々なミックスアップタイプを使っています
0.72
The set of mixing pairs is chosen from (positive-negative, anchor-negative) uniformly at random per 混合対の組は、ランダム per で一様に選択される(正負、アンカー負) 0.78
7 7 0.85
英語(論文から抽出)日本語訳スコア
CUB200 CARS196 CUB200 CARS196 0.78
SOP IN-SHOP SOP インシャップ 0.58
METHOD R@1 R@2 R@4 R@1 R@2 R@4 R@1 R@10 R@100 R@1 R@10 R@20 方法 R@1 R@4 R@1 R@2 R@4 R@1 R@10 R@100 R@1 R@20 0.63
Triplet [48] LiftedStructure [30] ProxyNCA [28] Margin [49] SoftTriple [31] D&C [36]∗ EPSHN [51]∗ ProxyNCA++ [40]∗ Triplet [48] LiftedStructure [30] ProxyNCA [28] Margin [49] SoftTriple [31] D&C [36]∗ EPSHN [51]∗ ProxyNCA++ [40]∗ 0.83
Cont [12] +Metrix Cont [12] +Metrix 0.99
MS [47] +Metrix MS[47] +Metrix 0.81
PA [20]∗ PA [20] PA[20]∗ PA[20] 0.74
+Metrix 63.5 65.9 65.2 65.0 67.3 65.9 64.9 69.0 +Metrix 63.5 65.9 65.2 65.0 67.3 65.9 64.9 69.0 0.60
64.7 67.4 +2.7 64.7 67.4 +2.7 0.43
67.8 71.4 +3.6 67.8 71.4 +3.6 0.43
69.7 69.5 71.0 +1.3 69.7 69.5 71.0 +1.3 0.42
75.6 75.8 75.6 76.2 77.7 76.6 75.3 79.8 75.6 75.8 75.6 76.2 77.7 76.6 75.3 79.8 0.42
75.9 77.9 +2.0 75.9 77.9 +2.0 0.43
77.8 80.6 +2.8 77.8 80.6 +2.8 0.43
80.0 79.3 81.8 +1.8 80.0 79.3 81.8 +1.8 0.42
84.4 84.5 83.8 84.6 86.2 84.4 83.5 87.3 84.4 84.5 83.8 84.6 86.2 84.4 83.5 87.3 0.42
84.6 85.7 +1.1 84.6 85.7 +1.1 0.43
85.6 86.8 +1.2 85.6 86.8 +1.2 0.43
87.0 87.0 88.2 +1.2 87.0 87.0 88.2 +1.2 0.42
77.3 81.4 81.2 82.1 86.5 84.6 82.7 86.5 77.3 81.4 81.2 82.1 86.5 84.6 82.7 86.5 0.42
81.6 85.1 +3.5 81.6 85.1 +3.5 0.43
87.8 89.6 +1.8 87.8 89.6 +1.8 0.43
87.7 87.6 89.1 +1.4 87.7 87.6 89.1 +1.4 0.42
85.4 88.3 87.9 88.7 91.9 90.7 89.3 92.5 85.4 88.3 87.9 88.7 91.9 90.7 89.3 92.5 0.42
88.2 91.1 +2.9 88.2 91.1 +2.9 0.43
92.7 94.2 +1.5 92.7 94.2 +1.5 0.43
92.9 92.3 93.6 +0.7 92.9 92.3 93.6 +0.7 0.42
90.8 92.4 92.6 92.7 95.3 94.1 93.0 95.7 90.8 92.4 92.6 92.7 95.3 94.1 93.0 95.7 0.42
92.7 94.6 +1.9 92.7 94.6 +1.9 0.43
95.3 96.0 +0.7 95.3 96.0 +0.7 0.43
95.8 95.5 96.7 +0.9 95.8 95.5 96.7 +0.9 0.42
70.5 76.1 73.2 74.8 79.8 75.9 78.3 80.7 70.5 76.1 73.2 74.8 79.8 75.9 78.3 80.7 0.42
74.9 77.5 +2.6 74.9 77.5 +2.6 0.43
76.9 81.0 +4.1 76.9 81.0 +4.1 0.43
– 79.1 81.3 +2.2 – 79.1 81.3 +2.2 0.64
85.6 88.6 87.0 87.8 91.2 88.4 90.7 92.0 85.6 88.6 87.0 87.8 91.2 88.4 90.7 92.0 0.42
87.0 89.1 +2.1 87.0 89.1 +2.1 0.43
89.8 92.0 +2.2 89.8 92.0 +2.2 0.43
– 90.8 91.7 +0.9 – 90.8 91.7 +0.9 0.64
Gain over SOTA SOTAを乗り越える 0.68
+1.7 +1.8 +0.9 +1.7 +1.8 +0.9 0.47
+1.8 +1.3 +0.9 +1.8 +1.3 +0.9 0.47
+0.6 +0.0 94.3 95.2 94.4 94.8 96.3 94.9 96.3 96.7 +0.6 +0.0 94.3 95.2 94.4 94.8 96.3 94.9 96.3 96.7 0.45
93.9 95.5 +1.5 93.9 95.5 +1.5 0.43
95.9 97.2 +1.3 95.9 97.2 +1.3 0.43
– 96.2 96.9 +0.7 – 96.2 96.9 +0.7 0.64
+0.5 85.3 88.6 86.2 88.6 91.0 85.7 87.8 90.4 +0.5 85.3 88.6 86.2 88.6 91.0 85.7 87.8 90.4 0.45
86.4 89.1 +2.7 86.4 89.1 +2.7 0.43
90.1 92.2 +2.1 90.1 92.2 +2.1 0.43
– 90.0 91.9 +1.9 – 90.0 91.9 +1.9 0.64
96.6 97.6 95.9 97.0 97.6 95.5 95.7 98.1 96.6 97.6 95.9 97.0 97.6 95.5 95.7 98.1 0.42
94.7 95.7 +1.0 94.7 95.7 +1.0 0.43
97.6 98.5 +0.9 97.6 98.5 +0.9 0.43
– 97.4 98.2 +0.8 – 97.4 98.2 +0.8 0.64
97.8 98.4 97.0 97.8 98.3 96.9 96.8 98.8 97.8 98.4 97.0 97.8 98.3 96.9 96.8 98.8 0.42
96.2 97.1 +0.9 96.2 97.1 +0.9 0.43
98.4 98.6 +0.2 98.4 98.6 +0.2 0.43
– 98.2 98.8 +0.6 – 98.2 98.8 +0.6 0.64
+1.2 +0.4 +0.0 +1.2 +0.4 +0.0 0.47
Table 2: Improving the SOTA with our Metrix (Metrix/feature) using Resnet-50 with embedding size d = 512. 表2: 埋め込みサイズd = 512のResnet-50を使用して、Metrix(Metrix/Featur e)を使用したSOTAの改善。 0.65
R@K (%): Recall@K; higher is better. r@k (%): recall@k; higher is better。 0.72
∗: reported by authors. ∗:著者による報告。 0.62
Bold black: best baseline (previous SOTA, one per column). bold black: 最高のベースライン(以前のsota、1カラムあたり1つ)。 0.73
Red: Our new SOTA. Red: 新たなSOTAです。 0.71
Gain over SOTA is over best baseline. SOTA以上の利得は最良基準を超える。 0.66
MS: Multi-Similarity, PA: Proxy Anchor. MS: Multi-Similarity, PA: Proxy Anchor。 0.92
Additional results are in subsection B.2 追加結果はb.2に記載する。 0.54
METHOD Cont [12] 方法 コント[12] 0.54
– +MoCHi [17] +MoCHi [17] +Metrix/embed pos-neg / anc-neg – +MoCHi [17] +MoCHi [17] +Metrix/embed pos-neg / anc-neg 0.77
neg-neg anc-neg PA [20] neg‐neg PA[20] 0.74
– +PS [11] pos-neg / neg-neg +Metrix/embed pos-neg / anc-neg – +PS [11] pos-neg / neg-neg +Metrix/embed pos-neg / anc-neg 0.72
MIXING PAIRS R@1 R@2 R@4 R@1 R@2 R@4 R@1 R@10 R@100 R@1 R@10 R@20 混合ペア R@1 R@4 R@1 R@2 R@4 R@1 R@10 R@100 R@1 R@20 0.64
CUB200 CARS196 CUB200 CARS196 0.78
SOP IN-SHOP SOP インシャップ 0.58
64.7 63.1 65.2 66.4 64.7 63.1 65.2 66.4 0.45
69.7 70.0 70.4 69.7 70.0 70.4 0.47
75.9 74.3 75.8 77.6 75.9 74.3 75.8 77.6 0.45
80.0 79.8 81.1 80.0 79.8 81.1 0.47
84.6 83.8 84.2 85.4 84.6 83.8 84.2 85.4 0.45
87.0 87.2 87.9 87.0 87.2 87.9 0.47
81.6 76.3 82.5 83.9 81.6 76.3 82.5 83.9 0.45
87.6 87.9 88.9 87.6 87.9 88.9 0.47
88.2 84.0 88.0 90.3 88.2 84.0 88.0 90.3 0.45
92.3 92.8 93.3 92.3 92.8 93.3 0.47
92.7 89.3 92.9 94.1 92.7 89.3 92.9 94.1 0.45
95.5 95.6 96.4 95.5 95.6 96.4 0.47
74.9 68.9 75.8 76.7 74.9 68.9 75.8 76.7 0.45
79.1 79.6 80.6 79.1 79.6 80.6 0.47
87.0 83.1 87.1 88.6 87.0 83.1 87.1 88.6 0.45
90.8 90.9 91.7 90.8 90.9 91.7 0.47
93.9 91.8 94.8 95.2 93.9 91.8 94.8 95.2 0.45
96.2 96.4 96.6 96.2 96.4 96.6 0.47
86.4 81.8 87.2 88.4 86.4 81.8 87.2 88.4 0.45
90.0 90.3 91.6 90.0 90.3 91.6 0.47
94.7 91.9 92.8 95.4 94.7 91.9 92.8 95.4 0.45
97.4 97.4 98.3 97.4 97.4 98.3 0.47
96.3 93.9 94.9 96.9 96.3 93.9 94.9 96.9 0.45
98.2 98.0 98.3 98.2 98.0 98.3 0.47
Table 3: Comparison of our Metrix/embed with other mixing methods using R-50 with embedding size d = 512 on Cars196. 表3: Cars196に埋込サイズd = 512のR-50を用いた他の混合法との比較 0.73
R@K (%): Recall@K; higher is better. r@k (%): recall@k; higher is better。 0.72
PA: Proxy Anchor, PS: Proxy Synthesis. PA: Proxy Anchor, PS: Proxy Synthesis 0.74
iteration. We choose k = 3 for input mixup. イテレーション。 入力混合に対して k = 3 を選択する。 0.60
For feature/embedding mixup, we mix all pairs in a batch by default, but also study k ∈ {20, 40}. 特徴/埋め込みの混合については、すべてのペアをデフォルトでバッチで混合するが、k ∈ {20, 40} も研究する。 0.68
As shown in Table 4, k = 3 for input and all pairs for feature/embedding mixup works best. 表 4 に示すように、入力は k = 3 であり、機能/埋め込みミックスアップの全てのペアは最適である。 0.69
Still, using few hard negatives for feature/embedding mixup is on par or outperforms input mixup. それでも、機能/埋め込みミックスアップにハードなネガがほとんどないため、入力ミックスアップは同等か上回っている。
訳抜け防止モード: それでも、機能/組み込みミックスアップにわずかなハードネガティブを使う 入力のミックスアップよりも優れています。
0.54
All choices significantly outperform the baseline. すべての選択がベースラインを大きく上回る。 0.63
Mixing pairs We study the effect of mixing pairs M (a), in particular, U +(a)2 (positive-positive), U +(a) × U −(a) (positive-negative) and S(a) × U −(a) (anchor-negative), again using different mixup types. 混合対 M (a)、特に U +(a)2 (正正)、 U +(a) × U −(a) (正負)、 S(a) × U −(a) (正負) の混合効果について、異なる混合型を用いて検討する。 0.72
As shown in Table 4, when using a single set of mixing pairs during training, positivenegative and anchor-negative consistently outperform the baseline, while positive-positive is actually outperformed by the baseline. 表4に示すように、トレーニング中に1組の混合ペアを使用する場合、正陰性およびアンカー負性はベースラインを一貫して上回り、正陽性は実際にはベースラインで上回ります。 0.69
This may be due to the lack of negatives in the mixed loss (9), despite the presence of negatives in the clean loss (3). これは、清浄な損失に負が存在するにもかかわらず、混合損失(9)における負の欠如に起因する可能性がある(3)。 0.74
Hence, we only use positive-negative and anchornegative by default, combined by choosing uniformly at random in each iteration. したがって、デフォルトでは正負とアンカー陰性のみを使用し、各イテレーションでランダムに選択することで組み合わせる。 0.76
Mixup types We study the effect of mixup type (input, feature, embedding), when used alone. 混合型 単独で使用する場合、混合型(入力、特徴、埋め込み)の効果について検討する。 0.66
The set of mixing pairs is chosen from (positive-negative, anchor-negative) uniformly at random per iteration. 混合対の集合は、反復ごとにランダムに(正負、アンカー負)の中から選ばれる。 0.73
As shown in both “hard negatives” and “mixing pairs” parts of Table 4, our default feature mixup works best, followed by embedding and input mixup. 表 4 の “hard negatives” と “mixing pairs” の両方に示されているように、デフォルトの機能ミックスアップが最もよく機能し、次に埋め込みと入力ミックスアップが続きます。 0.68
More results in subsection B.3 reveal that the same is true across all three loss functions and all four datasets considered. b.3のさらなる結果は、3つの損失関数と4つのデータセットすべてで同じことが判明している。 0.76
8 8 0.85
英語(論文から抽出)日本語訳スコア
HARD NEGATIVES k HARD NEGATIVES k 0.85
MIXING PAIRS MIXUP TYPE 混合ペア MIXUPタイプ 0.68
R@1 R@2 R@4 R@1 R@2 R@4 0.85
R@8 81.6 82.0 82.5 82.9 R@8 81.6 82.0 82.5 82.9 0.64
83.5 84.0 85.1 83.5 84.0 85.1 0.47
82.7 83.0 83.4 82.7 83.0 83.4 0.47
81.0 82.4 81.8 81.0 82.4 81.8 0.47
81.1 84.0 83.7 81.1 84.0 83.7 0.47
78.3 83.1 82.7 78.3 83.1 82.7 0.47
83.7 83.0 84.7 85.3 83.7 83.0 84.7 85.3 0.45
88.2 89.1 89.2 89.3 88.2 89.1 89.2 89.3 0.53
90.1 90.4 91.1 90.1 90.4 91.1 0.47
89.2 90.0 89.9 89.2 90.0 89.9 0.47
88.2 89.1 89.0 88.2 89.1 89.0 0.47
88.3 90.2 90.1 88.3 90.2 90.1 0.47
85.7 90.0 89.5 85.7 90.0 89.5 0.47
94.2 90.9 90.6 94.9 94.2 90.9 90.6 94.9 0.45
92.7 93.1 93.4 93.7 92.7 93.1 93.4 93.7 0.53
94.0 94.2 94.6 94.0 94.2 94.6 0.47
93.4 93.8 94.1 93.4 93.8 94.1 0.47
92.6 93.3 93.6 92.6 93.3 93.6 0.47
92.9 94.2 94.4 92.9 94.2 94.4 0.47
90.8 93.9 93.5 90.8 93.9 93.5 0.47
95.9 94.1 94.4 96.2 95.9 94.1 94.4 96.2 0.45
95.8 96.1 96.2 95.5 95.8 96.1 96.2 95.5 0.53
96.5 96.8 97.0 96.5 96.8 97.0 0.47
96.1 96.4 96.4 96.1 96.4 96.4 0.47
95.6 95.6 95.4 95.6 95.6 95.4 0.47
95.8 96.6 96.7 95.8 96.6 96.7 0.47
94.4 96.6 96.3 94.4 96.6 96.3 0.47
96.7 96.4 96.9 97.1 96.7 96.4 96.9 97.1 0.45
STUDY baseline hard negatives 研究 ベースライン hard + negative 0.67
mixing pairs 1 2 3 混合ペア 1 2 3 0.78
20 40 all 20 40 all 20~40人 20~40人 0.74
– 3 3 – all all – all all – 3 3 すべて すべて 0.50
pos-neg / anc-neg pos-neg / anc-neg pos-neg / anc-neg pos-neg / anc-neg pos-neg / anc-neg pos-neg / anc-neg 0.53
pos-neg / anc-neg pos-neg / anc-neg pos-neg / anc-neg pos-neg / anc-neg pos-neg / anc-neg pos-neg / anc-neg 0.53
pos-neg / anc-neg pos-neg / anc-neg pos-neg / anc-neg pos-neg / anc-neg pos-neg / anc-neg pos-neg / anc-neg 0.53
pos-pos pos-neg anc-neg pos‐pos-neg anc-neg 0.49
pos-pos pos-neg anc-neg pos‐pos-neg anc-neg 0.49
pos-pos pos-neg anc-neg pos‐pos-neg anc-neg 0.49
input input input feature feature feature 入力入力入力 feature feature 0.67
embed embed embed 埋め込み埋め込み埋め込み 0.44
input input input feature feature feature 入力入力入力 feature feature 0.67
embed embed embed 埋め込み埋め込み埋め込み 0.44
mixup type combinations mixup (複数形 mixups) 0.44
{1, all} {3, all} {all, all} {1, all} {3, all} {all, all} 0.85
{1, all, all} 1, all, all"に完全一致する 0.59
pos-neg / anc-neg pos-neg / anc-neg pos-neg / anc-neg pos-neg / anc-neg pos-neg / anc-neg pos-neg / anc-neg pos-neg / anc-neg 0.69
{input, feature} {input, embed} {feature, embed} input, feature} {input, embed} {feature, embed} 0.77
{input, feature, embed} 入力,特徴,埋め込み 0.45
Table 4: Ablation study of our Metrix using contrastive loss and R-50 with embedding size d = 512 on Cars196. 表4: 対照損失を用いたメトリクスのアブレーション研究、およびcars196への埋め込みサイズd = 512のr-50。
訳抜け防止モード: 表4 コントラスト損失を用いたメトリクスのアブレーション研究 and R-50 with Embedding size d = 512 on Cars196。
0.79
R@K (%): Recall@K; higher is better. r@k (%): recall@k; higher is better。 0.72
Mixup type combinations We study the effect of using more than one mixup type (input, feature, embedding), chosen uniformly at random per iteration. 混合型の組み合わせ 複数の混合型(インプット、特徴、埋め込み)を使うことで、イテレーション毎にランダムに選択される効果について検討する。 0.75
The set of mixing pairs is also chosen from (positive-negative, anchor-negative) uniformly at random per iteration. 混合対の組はまた、反復ごとにランダムに(正負、アンカー負)から選択される。 0.69
As shown in Table 4, mixing inputs, features and embeddings works best. 表4に示すように、インプット、機能、埋め込みの混合が最善である。 0.67
Although this solution outperforms feature mixup alone by 0.2% Recall@1 (85.1 → 85.3), it is computationally expensive because of using input mixup. この解は特徴ミックスアップを 0.2% Recall@1 (85.1 → 85.3) で上回るが、入力ミックスアップを使用するため計算コストがかかる。 0.67
The next best efficient choice is mixing features and embeddings, which however is worse than mixing features alone (84.7 vs. 85.1). 次の最適な選択は、機能と埋め込みの混合である。しかし、機能のみを混合するよりは悪い(84.7対85.1)。
訳抜け防止モード: 次の最適な選択は 混合機能と埋め込みは、単独の混合機能(84.7対85.1)よりも悪い。
0.76
This is why we chose feature mixup by default. これが、機能ミックスアップをデフォルトで選択した理由です。 0.64
5 Conclusion Based on the argument that metric learning is binary classification of pairs of examples into “positive” and “negative”, we have introduced a direct extension of mixup from classification to metric learning. 5 結論 メトリック学習は、例のペアのバイナリ分類を“ポジティブ”と“ネガティブ”に分類するという議論に基づいて、ミックスアップを分類からメトリック学習へ直接拡張した。 0.74
Our formulation is generic, applying to a large class of loss functions that separate positives from negatives per anchor and involve component functions that are additive over examples. 我々の定式化は汎用的であり、アンカー当たりの負から正を分離し、例よりも加法的な成分関数を含む大きな損失関数クラスに適用できる。 0.72
Those are exactly loss functions that require less mining. これらは、採掘の少ない損失関数である。 0.69
We contribute a principled way of interpolating labels, such that the interpolation factor affects the relative weighting of positives and negatives. 相関係数が正と負の相対重み付けに影響を及ぼすような、ラベルを補間する原理的な方法に寄与する。 0.67
Other than that, our approach is completely agnostic with respect to the mixup method, opening the way to using more advanced mixup methods for metric learning. それ以外に、我々のアプローチはミックスアップ法に関して完全に非依存であり、メトリクス学習にもっと高度なミックスアップ法を使う方法を開く。 0.64
We consistently outperform baselines using a number of loss functions on a number of benchmarks and we improve the state-of-the-art using a single loss function on all benchmarks, while previous state-of-the-art was not consistent in this respect. 我々は、多くのベンチマークで多くの損失関数を使用してベースラインを一貫して上回り、すべてのベンチマークで単一損失関数を使用して最先端の状態を改善しました。 0.68
Surprisingly, this loss function, multisimilarity [47], is not the state-of-the-art without mixup. 驚いたことに、この損失関数、multi similarity [47]はミックスアップのない最先端の関数ではない。 0.53
Because metric learning is about generalizing to unseen classes and distributions, our work may have applications to other such problems, including transfer learning, few-shot learning and continual learning. メトリック学習は、目に見えないクラスや分布に一般化することを目的としているため、我々の研究は、転送学習、少数ショット学習、連続学習など、他の問題にも応用できるかもしれない。 0.46
References [1] C. Beckham, S. Honari, V. Verma, A. Lamb, F. Ghadiri, R. D. Hjelm, Y. Bengio, and C. Pal. 参考文献 [1] C. Beckham, S. Honari, V. Verma, A. Lamb, F. Ghadiri, R. D. Hjelm, Y. Bengio, C. Pal。 0.78
On adversarial mixup resynthesis. 敵意について ミックスアップ再合成。 0.50
arXiv preprint arXiv:1903.02709, 2019. arXiv preprint arXiv:1903.02709, 2019 0.81
2 [2] D. Berthelot, C. Raffel, A. Roy, and I. Goodfellow. 2 [2] D. Berthelot, C. Raffel, A. Roy, I. Goodfellow。 0.90
Understanding and improving interpolation in autoen- オートエンの補間理解と改善- 0.80
coders via an adversarial regularizer. 逆正則化器経由のコーダー。 0.47
arXiv preprint arXiv:1807.07543, 2018. arXiv preprint arXiv:1807.07543, 2018 0.79
2 9 2 9 0.85
英語(論文から抽出)日本語訳スコア
[3] M. Caron, P. Bojanowski, A. Joulin, and M. Douze. [3] m. caron, p. bojanowski, a. joulin, m. douze。 0.76
Deep clustering for unsupervised learning of visual 教師なし視覚学習のための深層クラスタリング 0.69
features. In ECCV, 2018. 特徴。 2018年、ECCV。 0.69
1 [4] W. Chen, X. Chen, J. Zhang, and K. Huang. 1 [4]W. Chen、X. Chen、J. Zhang、K. Huang。 0.87
Beyond triplet loss: a deep quadruplet network for person 三重項損失を超えて: 人のための深い四重項ネットワーク 0.59
re-identification. In CVPR, 2017. 再識別。 2017年、CVPR。 0.63
2 [5] E. D. Cubuk, B. Zoph, D. Mane, V. Vasudevan, and Q. V. Le. 2 [5]E.D. Cubuk, B. Zoph, D. Mane, V. Vasudevan, Q. V. Le 0.87
Autoaugment: Learning augmentation Autoaugment: 学習の強化 0.88
policies from data. データからのポリシーです 0.76
arXiv preprint arXiv:1805.09501, 2018. arXiv preprint arXiv:1805.09501, 2018 0.80
1 [6] T. DeVries and G. W. Taylor. 1 6]T.DeVriesとG.W.Taylor。 0.86
Improved regularization of convolutional neural networks with cutout. 切断による畳み込みニューラルネットワークの正則化の改善 0.80
arXiv preprint arXiv:1708.04552, 2017. arXiv arXiv:1708.04552, 2017 0.77
2 [7] J. Donahue, Y. Jia, O. Vinyals, J. Hoffman, N. Zhang, E. Tzeng, and T. Darrell. 2 J. Donahue, Y. Jia, O. Vinyals, J. Hoffman, N. Zhang, E. Tzeng, T. Darrell. 0.86
Decaf: A deep convolu- tional activation feature for generic visual recognition. 落語:深い輪郭- 一般的な視覚認識のためのオプティカルアクティベーション機能。 0.62
In ICML, 2014. 2014年、ICML。 0.72
1 [8] J. Goldberger, S. Roweis, G. Hinton, and R. Salakhutdinov. 1 J. Goldberger, S. Roweis, G. Hinton, R. Salakhutdinov. 0.80
Neighbourhood components analysis. In NIPS, 2005. 近隣成分分析。 院 2005年、nips。 0.59
4 [9] A. Gordo, J. Almaz´an, J. Revaud, and D. Larlus. 4 A. Gordo, J. Almaz ́an, J. Revaud, D. Larlus. 0.84
Deep image retrieval: Learning global representations 深部画像検索:グローバル表現の学習 0.80
for image search. In ECCV, 2016. 画像検索のために 2016年、ECCV。 0.75
1 [10] G. Gu and B. Ko. 1 [10]G.Gu、B.Ko。 0.78
Symmetrical synthesis for deep metric learning. ディープメトリック学習のための対称合成 0.78
In AAAI, 2020. AAAI、2020年。 0.69
2, 6 [11] G. Gu, B. Ko, and H.-G. Kim. 2, 6 [11]G.Gu、B.Ko、H.G.Kim。 0.78
Proxy synthesis: Learning with synthetic classes for deep metric learning. プロキシ合成: ディープメトリック学習のための合成クラスによる学習。 0.78
In AAAI, 2021. 2021年、AAAIに入社。 0.66
3, 6, 7, 8 3, 6, 7, 8 0.85
[12] R. Hadsell, S. Chopra, and Y. LeCun. 12] R. Hadsell, S. Chopra, Y. LeCun. 0.86
Dimensionality reduction by learning an invariant mapping. 不変写像の学習による次元性低減 0.62
In CVPR, 2006. 院 2006年、CVPR。 0.63
2, 3, 4, 6, 8, 15 2, 3, 4, 6, 8, 15 0.85
[13] K. He, X. Zhang, S. Ren, and J. [13]K.He,X.Zhang,S. Ren,J. 0.80
Sun. Deep residual learning for image recognition. Sun 画像認識のための深い残差学習 0.67
In CVPR, 2016. 2016年、CVPR。 0.69
6 [14] D. Hendrycks, N. Mu, E. D. Cubuk, B. Zoph, J. Gilmer, and B. Lakshminarayanan. 6 14] D. Hendrycks, N. Mu, E. D. Cubuk, B. Zoph, J. Gilmer, B. Lakshminarayanan 0.89
Augmix: A simple Augmix: シンプルです。 0.84
data processing method to improve robustness and uncertainty. 堅牢性と不確実性を改善するデータ処理方法。 0.69
ICLR, 2020. ICLR、2020年。 0.89
2 [15] A. Hermans, L. Beyer, and B. Leibe. 2 A. Hermans, L. Beyer, B. Leibe. 0.77
In defense of the triplet loss for person re-identification. 人物の再識別のための三重項損失の防御。 0.64
arXiv preprint arXiv:1703.07737, 2017. arXiv arXiv:1703.07737, 2017 0.78
2, 4 [16] G. Hinton, O. Vinyals, and J. 2, 4 16] G. Hinton, O. Vinyals, J. 0.81
Dean. Distilling the knowledge in a neural network. Dean ニューラルネットワークで知識を蒸留する。 0.59
arXiv preprint arXiv プレプリント 0.83
arXiv:1503.02531, 2015. 2015年、arxiv:1503.02531。 0.35
1 [17] Y. Kalantidis, M. B. Sariyildiz, N. Pion, P. Weinzaepfel, and D. Larlus. 1 Y. Kalantidis, M. B. Sariyildiz, N. Pion, P. Weinzaepfel, D. Larlus. 0.85
Hard negative mixing for con- con-の硬い負の混合 0.77
trastive learning. NeurIPS, 2020. 気まぐれな学習 ニューロプス、2020年。 0.56
3, 6, 7, 8 3, 6, 7, 8 0.85
[18] J.-H. Kim, W. Choo, H. Jeong, and H. O. [18]J・H・キム、W・チョオ、H・ジョン、H・O。 0.60
Song. Co-mixup: Saliency guided joint mixup with supermod- 歌。 Co-mixup:Saliency Guided Joint Mixup with Supermod- 0.73
ular diversity. In ICLR, 2021. 多様性がある 2021年。 0.43
2 [19] J.-H. Kim, W. Choo, and H. O. 2 [19]J・H・キム、W・チョオ、H・O。 0.71
Song. Puzzle mix: Exploiting saliency and local statistics for optimal 歌。 puzzle mix: 給与と地域統計を最適に活用する 0.70
mixup. In ICML, 2020. ミックスアップ。 ICML、2020年。 0.69
2 [20] S. Kim, D. Kim, M. Cho, and S. Kwak. 2 [20]S. Kim, D. Kim, M. Cho, S. Kwak. 0.90
Proxy anchor loss for deep metric learning. ディープメトリック学習のためのプロキシアンカー損失。 0.70
In CVPR, 2020. CVPR、2020年。 0.72
2, 3, 4, 6, 8, 15 2, 3, 4, 6, 8, 15 0.85
[21] B. Ko and G. Gu. [21]B.KoとG.Gu。 0.78
Embedding expansion: Augmentation in embedding space for deep metric learning. 埋め込み拡張: ディープメトリック学習のための埋め込み空間の拡張。 0.80
In CVPR, 2020. 院 CVPR、2020年。 0.65
2, 6 [22] A. Kolesnikov, L. Beyer, X. Zhai, J. Puigcerver, J. Yung, S. Gelly, and N. Houlsby. 2, 6 A. Kolesnikov, L. Beyer, X. Zhai, J. Puigcerver, J. Yung, S. Gelly, N. Houlsby. 0.87
Big transfer (bit): ビッグトランスファー(ビット): 0.69
General visual representation learning. 一般的な視覚表現学習。 0.73
In ECCV, 2020. 2020年、ECCV。 0.70
1 [23] J. Krause, M. Stark, J. Deng, and L. Fei-Fei. 1 J. Krause, M. Stark, J. Deng, L. Fei-Fei. 0.82
3d object representations for fine-grained categorization. 細粒度分類のための3次元オブジェクト表現 0.65
ICCVW, 2013. ICCVW、2013年。 0.79
6, 14 [24] K. Lee, Y. Zhu, K. Sohn, C.-L. Li, J. Shin, and H. Lee. 6, 14 K. Lee, Y. Zhu, K. Sohn, C.-L. Li, J. Shin, H. Lee. 0.89
I-mix: A domain-agnostic strategy for contrastive I-mix: 対照的なドメインに依存しない戦略 0.53
representation learning. In ICLR, 2021. 表現学習。 2021年。 0.49
3, 6 [25] X. Liu, Y. Zou, L. Kong, Z. Diao, J. Yan, J. Wang, S. Li, P. Jia, and J. 3, 6 [25] X. Liu, Y. Zou, L. Kong, Z. Diao, J. Yan, J. Wang, S. Li, P. Jia, J. 0.90
You. Data augmentation via latent あなた。 latentによるデータ拡張 0.79
space interpolation for image classification. 画像分類のための空間補間 0.81
In ICPR, 2018. 2018年、ICPR。 0.64
2 [26] Z. Liu, P. Luo, S. Qiu, X. Wang, and X. Tang. 2 [26] z. liu, p. luo, s. qiu, x. wang, x. tang 0.80
Deepfashion: Powering robust clothes recognition and Deepfashion: 堅牢な衣服認識とパワーアップ 0.85
retrieval with rich annotations. 豊富なアノテーションによる検索。 0.53
In CVPR, 2016. 2016年、CVPR。 0.69
6, 14 10 6, 14 10 0.85
英語(論文から抽出)日本語訳スコア
[27] I. Loshchilov and F. Hutter. [27]I.LoshchilovとF.Hutter。 0.88
Decoupled weight decay regularization. decoupled weight decay regularization の略。 0.68
arXiv preprint arXiv:1711.05101, arXiv preprint arXiv:1711.05101, 0.65
2017. 14 [28] Y. Movshovitz-Attias, A. Toshev, T. K. Leung, S. Ioffe, and S. Singh. 2017. 14 [28]Y. Movshovitz-Attias, A. Toshev, T. K. Leung, S. Ioffe, S. Singh 0.86
No fuss distance metric learning No fuss distance metric learning 0.85
using proxies. In ICCV, 2017. プロキシを使う。 2017年、ICCV。 0.72
2, 3, 4, 6, 8, 15 2, 3, 4, 6, 8, 15 0.85
[29] K. Musgrave, S. Belongie, and S.-N. Lim. K. Musgrave, S. Belongie, S.-N. Lim. 0.74
A metric learning reality check. メトリクス学習のリアリティチェック。 0.51
In ECCV, 2020. 2020年、ECCV。 0.70
2 [30] H. Oh Song, Y. Xiang, S. Jegelka, and S. Savarese. 2 [30]H.Oh Song、Y.Xiang、S. Jegelka、S.Savarese。 0.82
Deep metric learning via lifted structured feature 昇降型構造特徴を用いた深部距離学習 0.65
embedding. In CVPR, 2016. 埋め込み。 2016年、CVPR。 0.64
1, 2, 3, 4, 6, 8, 14, 15 1, 2, 3, 4, 6, 8, 14, 15 0.85
[31] Q. Qian, L. Shang, B. [31] Q. Qian, L. Shang, B。 0.93
Sun, J. Hu, H. Li, and R. Jin. Sun、J. Hu、H. Li、R. Jin。 0.88
Softtriple loss: Deep metric learning without triplet ソフトトリプル損失:三重項を含まないディープメトリック学習 0.65
sampling. In ICCV, 2019. サンプリング ICCV、2019年。 0.52
2, 3, 6, 8, 15 2, 3, 6, 8, 15 0.85
[32] J. Qin, J. Fang, Q. Zhang, W. Liu, X. Wang, and X. Wang. [32]j. qin、j. fang、q. zhang、w. liu、x. wang、x. wang。 0.66
Resizemix: Mixing data with preserved object Resizemix: 保存されたオブジェクトとデータを混合する 0.64
information and true labels. arXiv preprint arXiv:2012.11101, 2020. 情報と真のラベル。 arXiv preprint arXiv:2012.11101, 2020 0.78
2 [33] N. Reimers and I. Gurevych. 2 [33]N. ReimersとI. Gurevych。 0.88
Sentence-bert: Sentence embeddings using siamese bert-networks. sentence-bert: siamese bert-networksを使った文埋め込み。 0.58
In EMNLP, 2019. 院 2019年、EMNLP。 0.58
1 [34] J. Robinson, C.-Y. 1 [34]j.ロビンソン c.-y. 0.82
Chuang, S. Sra, and S. Jegelka. Chuang, S. Sra, S. Jegelka。 0.86
Contrastive learning with hard negative samples. 強陰性サンプルを用いたコントラスト学習 0.71
ICLR, 2021. ICLR 2021. 0.67
2 [35] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, 2 O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, 0.89
M. Bernstein, et al Imagenet large scale visual recognition challenge. M. Bernstein, et al Imagenet 大規模視覚認識チャレンジ。 0.82
IJCV, 2015. IJCV、2015年。 0.78
6 [36] A. Sanakoyeu, V. Tschernezki, U. Buchler, and B. Ommer. 6 A. Sanakoyeu, V. Tschernezki, U. Buchler, B. Ommer. 0.78
Divide and conquer the embedding space for 埋め込み空間を分割して征服する 0.79
metric learning. In CVPR, 2019. メトリック学習。 CVPR、2019年。 0.65
6, 8, 15 [37] F. Schroff, D. Kalenichenko, and J. Philbin. 6, 8, 15 37] f. schroff、d. kalenichenko、j. philbin。 0.79
Facenet: A unified embedding for face recognition and facenet: 顔認識と顔認識のための統合埋め込み 0.75
clustering. In CVPR, 2015. クラスタリング。 2015年、CVPR。 0.65
1, 2 [38] K. Sohn. 1, 2 38) K. Sohn 0.70
Improved deep metric learning with multi-class n-pair loss objective. マルチクラスn対損失目標を用いた深度距離学習の改良 0.72
In NIPS, 2016. 2016年、NIPS。 0.76
2 [39] K. Sohn, D. Berthelot, C.-L. Li, Z. Zhang, N. Carlini, E. D. Cubuk, A. Kurakin, H. Zhang, and C. Raffel. 2 39] K. Sohn, D. Berthelot, C.-L. Li, Z. Zhang, N. Carlini, E.D. Cubuk, A. Kurakin, H. Zhang, C. Raffel 0.87
Fixmatch: Simplifying semi-supervised learning with consistency and confidence. Fixmatch: 一貫性と信頼性を備えた半教師付き学習の簡略化。 0.56
arXiv preprint arXiv:2001.07685, 2020. arXiv preprint arXiv:2001.07685, 2020 0.81
1 [40] E. W. Teh, T. DeVries, and G. W. Taylor. 1 40] E. W. Teh, T. DeVries, G. W. Taylor 0.87
Proxynca++: Revisiting and revitalizing proxy neighborhood proxynca++: proxy neighborhoodの再訪と再活性化 0.61
component analysis. コンポーネント分析。 0.70
In ECCV, 2020. 2020年、ECCV。 0.70
2, 3, 4, 6, 8, 15 2, 3, 4, 6, 8, 15 0.85
[41] A. F. M. Uddin, M. Monira, W. Shin, T. Chung, and S.-H. Bae. A. F. M. Uddin, M. Monira, W. Shin, T. Chung, S.-H. Bae 0.88
Saliencymix: A saliency guided data Saliencymix:Saliency ガイドデータ 0.65
augmentation strategy for better regularization. より良い正規化のための強化戦略 0.64
In ICLR, 2021. 2 [42] S. Venkataramanan, Y. Avrithis, E. Kijak, and L. Amsaleg. 2021年。 2 [42]S. Venkataramanan, Y. Avrithis, E. Kijak, L. Amsaleg. 0.73
Alignmix: Improving representation by alignmix: 表現を改善する 0.82
interpolating aligned features. 整列した特徴を補間する 0.53
arXiv preprint arXiv:2103.15375, 2021. arXiv preprint arXiv:2103.15375, 2021 0.81
2, 4 [43] V. Verma, A. Lamb, C. Beckham, A. Najafi, I. Mitliagkas, D. Lopez-Paz, and Y. Bengio. 2, 4 V. Verma, A. Lamb, C. Beckham, A. Najafi, I. Mitliagkas, D. Lopez-Paz, Y. Bengio 0.87
Manifold mixup: マニフォールドミックスアップ 0.63
Better representations by interpolating hidden states. 隠れた状態の補間による表現の改善。 0.49
In ICML, 2019. 2019年、ICML入社。 0.80
1, 2, 4, 7 1, 2, 4, 7 0.85
[44] O. Vinyals, C. Blundell, T. Lillicrap, K. Kavukcuoglu, and D. Wierstra. [44] o. vinyals, c. blundell, t. lillicrap, k. kavukcuoglu, d. wierstra。 0.80
Matching networks for one shot ワンショットのマッチングネットワーク 0.74
learning. arXiv preprint arXiv:1606.04080, 2016. 学ぶこと。 arXiv preprint arXiv:1606.04080, 2016 0.73
1 [45] C. Wah, S. Branson, P. Welinder, P. Perona, and S. Belongie. 1 C. Wah, S. Branson, P. Welinder, P. Perona, S. Belongie. 0.81
The caltech-ucsd birds-200-2011 dataset. caltech-ucsd birds-200-2011データセット。 0.52
California Institute of Technology, 2011. カリフォルニア工科大学、2011年。 0.60
6, 14 [46] J. Wang, Y. 6, 14 [46] J. Wang, Y。 0.86
Song, T. Leung, C. Rosenberg, J. Wang, J. Philbin, B. Chen, and Y. Wu. Song, T. Leung, C. Rosenberg, J. Wang, J. Philbin, B. Chen, Y. Wu 0.97
Learning fine-grained image similarity with deep ranking. きめ細かな学習 画像の類似性と深いランク付け。 0.62
In CVPR, 2014. 2014年、CVPR。 0.69
2, 3, 4 [47] X. Wang, X. Han, W. Huang, D. Dong, and M. R. Scott. 2, 3, 4 [47] X. Wang, X. Han, W. Huang, D. Dong, M. R. Scott。 0.88
Multi-similarity loss with general pair weighting 一般対重み付き多相性損失 0.82
for deep metric learning. 深いメートル法学習に役立ちます 0.63
In CVPR, 2019. CVPR、2019年。 0.65
2, 3, 4, 6, 8, 9, 15 2, 3, 4, 6, 8, 9, 15 0.85
[48] K. Q. Weinberger and L. K. Saul. K. Q. Weinberger と L. K. Saul 0.71
Distance metric learning for large margin nearest neighbor classification. 大縁最近傍分類における距離距離学習 0.65
JMLR, 2009. 2009年、JMLR。 0.69
2, 6, 8, 15 2, 6, 8, 15 0.85
[49] C. Wu, R. Manmatha, A. J. Smola, and P. Kr¨ahenb¨uhl. 49] C. Wu, R. Manmatha, A. J. Smola, P. Kr 'ahenb 'uhl. 0.79
Sampling matters in deep embedding learning. 深い埋め込み学習における問題のサンプリング。 0.63
In ICCV, 2017. 院 2017年、ICCV。 0.64
2, 6, 8, 15 2, 6, 8, 15 0.85
[50] E. P. Xing, M. I. Jordan, S. J. Russell, and A. Y. Ng. E. P. Xing, M. I. Jordan, S. J. Russell, A. Y. Ng. 0.90
Distance metric learning with application to clustering 距離メトリック学習とクラスタリングへの応用 0.78
with side-information. サイドインフォメーション付き。 0.52
In NIPS, 2003. 2003年、NIPS。 0.74
1, 2 11 1, 2 11 0.85
英語(論文から抽出)日本語訳スコア
[51] H. Xuan, A. Stylianou, and R. Pless. [51] h. xuan, a. stylianou, r. pless。 0.77
Improved embeddings with easy positive triplet mining. 簡単な正の三重項採掘による埋没の改善 0.57
In WACV, 2020. WACV。 2020. 0.67
6, 8, 15 [52] D. Yi, Z. Lei, and S. Z. Li. 6, 8, 15 52] d. yi, z. lei, s. z. li. 0.81
Deep metric learning for practical person re-identification. 実践者再識別のための深度測定学習 0.76
arXiv preprint arXiv プレプリント 0.83
arXiv:1703.07737, 2014. arXiv:1703.07737, 2014。 0.63
4 [53] S. Yun, D. Han, S. J. Oh, S. Chun, J. Choe, and Y. Yoo. 4 [53]S.Yun,D.Han,S.J.Oh,S .Chun,J.Choe,Y.Yoo。
訳抜け防止モード: 4 [53 ]S.Yun,D.Han,S.J.Oh, S. Chun , J. Choe , Y. Yoo 。
0.86
Cutmix: Regularization strategy to train strong Cutmix: トレーニング強化のための正規化戦略 0.68
classifiers with localizable features. ローカライズ可能な特徴を持つ分類器。 0.51
In ICCV, 2019. ICCV、2019年。 0.67
2 [54] A. Zhai and H.-Y. 2 [54]A.ZhaiとH.Y. 0.83
Wu. Classification is a strong baseline for deep metric learning. WU! 分類は深いメートル法学習の強力なベースラインである。 0.63
arXiv preprint arXiv プレプリント 0.83
arXiv:1811.12649, 2018. arXiv:1811.12649, 2018。 0.60
14 [55] H. Zhang, M. Cisse, Y. N. Dauphin, and D. Lopez-Paz. 14 H. Zhang, M. Cisse, Y. N. Dauphin, D. Lopez-Paz. 0.85
mixup: Beyond empirical risk minimization. Mixup: 経験的リスク最小化を超えて。 0.59
In ICLR, 2018. 院 ICLR、2018年。 0.63
1, 2, 4 [56] J. Zhu, L. Shi, J. Yan, and H. Zha. 1, 2, 4 [56]J.Zhu、L.Shi、J.Yan、H.Zha。 0.82
Automix: Mixup networks for sample interpolation via cooperative automix: 協調によるサンプル補間のためのミックスアップネットワーク 0.77
barycenter learning. barycenter 学習。 0.75
In ECCV, 2020. 2020年、ECCV。 0.70
2, 3 [57] Y. Zhu, M. Yang, C. Deng, and W. Liu. 2, 3 [57]Y. Zhu、M. Yang、C. Deng、W. Liu。 0.85
Fewer is more: A deep graph metric learning perspective using less is more: deep graph metric learning perspective using using 0.75
fewer proxies. NeurIPS, 2020. プロキシは少ない。 ニューロプス、2020年。 0.58
2 12 2 12 0.85
英語(論文から抽出)日本語訳スコア
A More on the method その方法についてもっと詳しく 0.70
A.1 Mixed loss function A.1 混合損失関数 0.78
Interpretation To better understand the two contributions of a labeled embedding (v, y) in V (a) to the positive and negative terms of (9), consider the case of positive-negative mixing pairs, M (a) ⊂ U +(a) × U −(a). 解釈 V (a) のラベル付き埋め込み (v, y) と (9) の正の項と負の項との2つの寄与をよりよく理解するために、正の負の混合対 M (a) = U +(a) × U −(a) を考える。 0.80
Then, for ((x, y), (x′, y′)) ∈ M (a), the mixed label is mixλ(y, y′) = mixλ(1, 0) = λ and (9) becomes すると、(x, y), (x′, y′)) ∈ M (a) に対して、混合ラベルはmixλ(y, y′) = mixλ(1, 0) = λ となり、(9) となる。 0.92
σ+ eℓ(a; θ) = τ  X(v,λ)∈V (a) σ + el(a; θ) = τ = X(v,λ)∂V(a) 0.80
λρ+(s(a, v)) λρ+(s(a, v)) 0.91
 + σ−  X(v,λ)∈V (a)  + σ− x(v,λ) ∈v (a) である。 0.78
(1 − λ)ρ−(s(a, v))  (1 − λ)ρ−(s(a, v)) = ... 0.96
  . (12)   . (12) 0.85
Thus, the mixed embedding v is both positive (with weight λ) and negative (with weight 1 − λ). したがって、混合埋め込み v は(重み λ の)正と(重み 1 − λ の)負の両方である。 0.81
Whereas for positive-positive mixing, that is, for M (a) ⊂ U +(a)2, the mixed label is 1 and the negative term vanishes. 正の正の混合の場合、すなわち M (a) > U +(a)2 の場合、混合ラベルは 1 であり、負の項は消滅する。 0.75
Similarly, for negative-negative mixing, that is, for M (a) ⊂ U −(a)2, the mixed label is 0 and the positive term vanishes. 同様に、負負の混合、すなわち m(a) に対して、混合ラベルは 0 であり、正の項は消滅する。
訳抜け防止モード: 同様に、負-負混合の場合、すなわち m ( a ) に対して u −(a)2 である。 混合ラベルは 0 である ポジティブな言葉は消えます
0.79
In the particular case of contrastive (1) loss, positive-negative mixing (12) becomes 対照的な(1)損失の特定の場合、正負混合(12) 0.72
eℓcont(a; θ) := X(v,λ)∈V (a) elcont(a; θ) := X(v,λ)∂V(a) 0.81
−λs(a, v) + X(v,λ)∈V (a) −λs(a, v) + X(v,λ)・V(a) 0.93
(1 − λ)[s(a, v) − m]+. (1 − λ)[s(a, v) − m]+ である。 0.86
(13) Similarly, for multi-similarity (2), (13) 同様に、多重相似性 (2), 0.84
eℓMS(a; θ) := elMS(a; θ) := 0.85
1 β 1 γ log 1 + X(v,λ)∈V (a) log 1 + X(v,λ)∈V (a) 1 β 1 γ log_1 + x(v,λ)jvm_v(a) log_1 + x(v,λ)jvm_v(a) 0.80
λe−β(s(a,v)−m)  + (1 − λ)eγ(s(a,v)−m)  . λe−β(s(a,v)−m) ^ λ + (1 − λ)eγ(s(a,v)−m) . 0.93
(14) A.2 Analysis: Mixed embeddings and positivity (14) A.2分析:混合埋め込みと陽イオン 0.77
Positivity Under positive-negative mixing, (12) shows that a mixed embedding v with interpolation factor λ behaves as both positive and negative to different extents, depending on λ: mostly positive for λ close to 1, mostly negative for λ close to 0. 正負混合(英語版) (12) では、補間係数 λ を持つ混合埋め込み v が λ に依存して正と負の両方として振る舞うことが示されている。
訳抜け防止モード: 正-負の混合の下では、 (12 ) は補間係数 λ の混合埋め込み v が、異なる範囲で正と負の両方として振る舞うことを示す。 λ に依る : λ が 1 に近くなると概ね正である λ が 0 に近い場合、ほとんど負である。
0.70
The net effect depends on the derivative of 純効果は微分に依存する 0.48
the loss with respect to the similarity ∂eℓ(a; θ)/∂s(a, v): if the derivative is negative, then v behaves 類似性に関する損失 ∂el(a; θ)/∂s(a, v) 微分が負であれば、v は振る舞う 0.73
as positive and vice versa. 肯定的かつその逆です 0.43
This is clear from the chain rule これはチェーンルールから明らかです 0.74
∂eℓ(a; θ) ∂v ∂el(a; θ) ∂v 0.88
= ∂eℓ(a; θ) = ∂el(a; θ) 0.91
∂s(a, v) · ∂s(a, v) · 0.91
∂ s(a, v) ∂v ∂ s(a, v) ∂v 0.82
, (15) because ∂ s(a, v)/∂v is a vector pointing in a direction that makes a, v more similar and the loss is , (15) なぜなら ∂ s(a, v)/∂v は a, v がより類似し、損失となる方向を指すベクトルであるからである。 0.86
being minimized. Let Pos(a, v) be the event that v behaves as “positive”, i.e., ∂eℓ(a; θ)/∂s(a, v) ≤ 0 最小化される。 Pos(a, v) を v が「正」、すなわち ∂el(a; θ)/∂s(a, v) ≤ 0 として振る舞う事象とする。 0.73
and minimizing the loss will increase the similarity s(a, v). そして損失を最小化すると、類似度s(a, v)が増加する。 0.74
Multi-similarity We estimate the probability of Pos(a, v) as a function of λ in the case of multisimilarity with a single embedding v obtained by mixing a positive with a negative: 多相似性(multi- similarity) pos(a, v) の確率を、正と負を混合した単一の埋め込み v と多相性の場合は λ の関数として推定する。 0.81
eℓMS(a; θ) = elMS(a; θ) = 0.85
1 β log(cid:16)1 + λe−β(s(a,v)−m)(cid:17) + 1 β log(cid:16)1 + λe−β(s(a,v)−m)(cid:17) + 0.85
1 γ log(cid:16)1 + (1 − λ)eγ(s(a,v)−m)(cid:17) . 1 γ log(cid:16)1 + (1 − λ)eγ(s(a,v)−m)(cid:17) 0.89
(16) In this case, Pos(a, v) occurs if and only if (16) この場合、pos(a, v) が発生するのは、その時と時である。 0.72
∂eℓMS(a; θ) ∂elMS(a;θ) 0.94
∂s(a, v) = ∂s(a, v) = 0.91
−λe−β(s(a,v)−m) −λe−β(s(a,v)−m) 0.81
(1 + λe−β(s(a,v)−m)) (1 + λe−β(s(a,v)−m)) 0.93
+ (1 − λ)eγ(s(a,v)−m) + (1 − λ)eγ(s(a,v)−m) 0.90
(1 + (1 − λ)eγ(s(a,v)−m)) (1 + (1 − λ)eγ(s(a,v)−m)) 0.94
≤ 0. (17) 13 ≤ 0. (17) 13 0.85
英語(論文から抽出)日本語訳スコア
DATASET CUB200 [45] データセット CUB200[45] 0.63
CARS196 [23] CARS196[23] 0.96
SOP [30] IN-SHOP [26] SOP[30] In-SHOP [26] 0.81
Objects # classes # training images # testing images オブジェクト #クラス #トレーニングイメージ #テストイメージ 0.74
sampling samples per class classes per batch クラスごとにサンプルをサンプリングする 0.70
birds 200 5, 894 5, 894 birds 200 5, 894 5, 894 0.85
cars 196 8, 092 8, 093 cars 196 8, 092 8, 093 0.85
household furniture 22, 634 60, 026 60, 027 家庭用家具 22, 634 60, 026 60, 027 0.80
clothes 7, 982 26, 356 26, 356 clothes 7, 982 26, 356 26, 356 0.85
random random random random 0.85
balanced balanceed~ 0.72
balanced balanceed~ 0.72
– 65† – 70† – 65† – 70† 0.88
5 20 5 20 learning rate 5 20 5 20 learning rate 0.85
1 × 10−4 1 × 10−4 1 × 10−4 1 × 10−4 0.78
3 × 10−5 1 × 10−4 3 × 10−5 1 × 10−4 0.78
Table 5: Statistics and settings for the four datasets we use in our experiments. 表5: 実験で使用する4つのデータセットの統計と設定。 0.76
†: average. By letting t := s(a, v) − m, this condition is equivalent to 平均: 平均。 t := s(a, v) − m とすると、この条件は同値である。 0.70
(1 − λ)eγt (1 − λ)eγt 0.92
(1 + (1 − λ)eγt) (1 + (1 − λ)eγt) 1.00
≤ λe−βt (1 + λe−βt) ≤ λe−βt (1 + λe−βt) 0.65
(1 − λ)eγt(1 + λe−βt) ≤ λe−βt(1 + (1 − λ)eγt) (1 − λ)eγt(1 + λe−βt) ≤ λe−βt(1 + (1 − λ)eγt) 0.78
(1 − λ)eγt + λ(1 − λ)e(γ−β)t ≤ λe−βt + λ(1 − λ)e(γ−β)t (1 − λ)eγt + λ(1 − λ)e(γ−β)t ≤ λe−βt + λ(1 − λ)e(γ−β)t 0.90
e(β+γ)t ≤ λ e(β+γ)t ≤ λ 0.88
1 − λ (β + γ)(s(a, v) − m) ≤ ln(cid:18) λ 1 − λ (β + γ)(s(a, v) − m) ≤ ln(cid:18) λ 0.89
s(a, v) ≤ 1 − λ(cid:19) ln(cid:18) λ s(a, v) ≤ 1 − λ(cid:19) ln(cid:18) λ 0.87
1 β + γ 1 − λ(cid:19) + m. 1 β + γ 1 − λ (cid:19) + m。 0.86
Finally, the probability of Pos(a, v) as a function of λ is 最後に、λ の函数としての Pos(a, v) の確率は、 0.91
P(Pos(a, v)) = Fλ(cid:18) 1 P(Pos(a, v)) = Fλ(cid:18) 1 0.99
β + γ ln(cid:18) λ β + γ ln(cid:18) λ 0.87
1 − λ(cid:19) + m(cid:19) , 1 − λ(cid:19) + m(cid:19) , 0.90
(18) (19) (20) (18) (19) (20) 0.85
(21) (22) (23) (21) (22) (23) 0.85
(24) where Fλ is the CDF of similarities s(a, v) between anchors a and mixed embeddings v with interpolation factor λ. (24) Fλ はアンカー a と補間係数 λ との混合埋め込み v の類似性 s(a, v) の CDF である。 0.84
In Figure 2, we measure the probability of Pos(a, v) as a function of λ in two ways. 図2では、λ の関数として pos(a, v) の確率を2つの方法で測定する。 0.87
First, we measure the derivative ∂eℓMS(a; θ)/∂s(a, v) for anchors a and mixed embeddings v over the en- まず第一に a と en 上の混合埋め込み v をアンカーする微分 ∂elMS(a; θ)/∂s(a, v) を測定する。 0.73
tire dataset and we report the empirical probability of this derivative being non-positive versus λ. タイヤデータセットを解析し,この誘導体がλに対して非陽性である経験的確率を報告する。 0.53
Second, we measure P(Pos(a, v)) theoretically using (24), where the CDF of similarities s(a, v) is again measured empirically for a and v over the dataset, as a function of λ. 第2に、P(Pos(a, v)) を理論的に (24) を用いて測定し、類似性の CDF を λ の関数として、データセット上の a と v に対して経験的に測定する。 0.81
Despite the simplifying assumption of a single positive and a single negative in deriving (24), we observe that the two measurements agree in general. 導出における1つの正と1つの負の仮定が単純化されているにもかかわらず(24)、2つの測定は一般に一致している。 0.66
They are both increasing functions of λ of sigmoidal shape, they roughly yield P(Pos(a, v)) ≥ 0.5 for λ ≥ 0.5 and they confirm that a mixed embedding is mostly positive for λ close to 1 and mostly negative for λ close to 0. どちらもシグモイド形状のλの関数を増加させ、λ ≥ 0.5 に対して p(pos(a, v)) ≥ 0.5 を大まかに与え、混合埋め込みが 1 に近い λ に対してほぼ正であり、ほとんど 0 に近い λ に対して負であることを確認する。
訳抜け防止モード: これらはどちらも、Sigmoidal の λ の増分関数である。 λ ≥ 0.5 に対して P(Pos(a, v ) ≥ 0.5 となる。 そして彼らは 混合埋め込みは、λ が 1 に近く、λ が 0 に近づくと、ほとんど正である。
0.87
B More on experiments B 実験のさらなる展開 0.82
B.1 Setup B.1 セットアップ 0.67
Datasets and sampling Dataset statistics are summarized in Table 5. テーブル5にデータセットとサンプリングデータセット統計を要約する。 0.81
Since the number of classes is large compared to the batch size in SOP and In-Shop, batches would rarely contain a positive pair when sampled uniformly at random. クラス数はSOPやIn-Shopのバッチサイズに比べて大きいため、ランダムにサンプリングされた場合、バッチには正のペアがほとんど含まれない。 0.69
Hence, we use balanced sampling [54], i.e., a fixed number of classes and examples per class, as shown in Table 5. したがって、テーブル5に示すように、バランスのとれたサンプリング[54]、すなわちクラス毎の固定数のクラスと例を使用します。 0.79
For fair comparison with baseline methods, images are randomly flipped and cropped to 224 × 224 at training. ベースライン手法と公平に比較すると、トレーニング時に画像はランダムに反転して224 × 224に切り分けられる。 0.75
At inference, we resize to 256 × 256 and then center-crop to 224 × 224. 推測では256×256にリサイズし、224×224に中心クロップします。 0.69
Training We train R-50 using AdamW [27] optimizer for 100 epochs with a batch size 100. トレーニング バッチサイズ100の100エポックに対してAdamW[27]オプティマイザを使用してR-50をトレーニングします。 0.59
The initial learning rate per dataset is shown in Table 5. データセット当たりの最初の学習率を表5に示す。 0.80
The learning rate is decayed by 0.1 for Cont and 学習率は Cont および 0.1 で減衰する。 0.85
14 14 0.85
英語(論文から抽出)日本語訳スコア
Method 1 2 4 1 方法 1 2 4 1 0.83
2 4 1 10 100 2 4 1 10 100 0.85
1 10 20 CUB200 1 10 20 CUB200 0.83
CARS196 SOP CARS196 SOP 0.82
IN-SHOP Triplet [48] LiftedStructure [30] ProxyNCA [28] Margin [49] SoftTriple [31] D&C [36]∗ EPSHN [51]∗ ProxyNCA++ [40]∗ インシャップ Triplet [48] LiftedStructure [30] ProxyNCA [28] Margin [49] SoftTriple [31] D&C [36]∗ EPSHN [51]∗ ProxyNCA++ [40]∗ 0.57
Cont [12] +Metrix/input コント[12] +Metrix/input 0.50
+Metrix +Metrix/embed +Metrix +Metrix/embed 0.63
MS [47] +Metrix/input MS[47] +Metrix/input 0.65
+Metrix +Metrix/embed +Metrix +Metrix/embed 0.63
PA [20]∗ PA [20] PA[20]∗ PA[20] 0.74
+Metrix/input +Metrix/input 0.47
+Metrix +Metrix/embed +Metrix +Metrix/embed 0.63
63.5 65.9 65.2 65.0 67.3 65.9 64.9 69.0 63.5 65.9 65.2 65.0 67.3 65.9 64.9 69.0 0.42
64.7 66.3 +1.6 67.4 +2.7 66.4 +1.7 64.7 66.3 +1.6 67.4 +2.7 66.4 +1.7 0.38
67.8 69.0 +1.2 71.4 +3.6 70.2 +2.4 67.8 69.0 +1.2 71.4 +3.6 70.2 +2.4 0.38
69.7 69.5 70.5 +0.8 71.0 +1.3 70.4 +0.7 69.7 69.5 70.5 +0.8 71.0 +1.3 70.4 +0.7 0.38
75.6 75.8 75.6 76.2 77.7 76.6 75.3 79.8 75.6 75.8 75.6 76.2 77.7 76.6 75.3 79.8 0.42
84.4 84.5 83.8 84.6 86.2 84.4 83.5 87.3 84.4 84.5 83.8 84.6 86.2 84.4 83.5 87.3 0.42
84.6 75.9 85.2 77.1 +1.2 +0.6 77.9 85.7 +2.0 +1.1 77.6 85.4 +1.7 +0.8 84.6 75.9 85.2 77.1 +1.2 +0.6 77.9 85.7 +2.0 +1.1 77.6 85.4 +1.7 +0.8 0.36
85.6 77.8 79.1 86.0 +1.3 +0.4 80.6 86.8 +2.8 +1.2 80.4 86.7 +2.6 +1.1 85.6 77.8 79.1 86.0 +1.3 +0.4 80.6 86.8 +2.8 +1.2 80.4 86.7 +2.6 +1.1 0.36
80.0 87.0 87.0 79.3 81.2 87.8 +1.2 +0.8 81.8 88.2 +1.8 +1.2 81.1 87.9 +1.1 +0.9 80.0 87.0 87.0 79.3 81.2 87.8 +1.2 +0.8 81.8 88.2 +1.8 +1.2 81.1 87.9 +1.1 +0.9 0.36
77.3 81.4 81.2 82.1 86.5 84.6 82.7 86.5 77.3 81.4 81.2 82.1 86.5 84.6 82.7 86.5 0.42
85.4 88.3 87.9 88.7 91.9 90.7 89.3 92.5 85.4 88.3 87.9 88.7 91.9 90.7 89.3 92.5 0.42
88.2 81.6 89.3 82.9 +1.3 +1.1 85.1 91.1 +3.5 +2.9 83.9 90.3 +2.3 +2.1 88.2 81.6 89.3 82.9 +1.3 +1.1 85.1 91.1 +3.5 +2.9 83.9 90.3 +2.3 +2.1 0.36
87.8 92.7 89.0 93.4 +1.2 +0.7 89.6 94.2 +1.8 +1.5 88.8 92.9 +1.0 +0.2 87.8 92.7 89.0 93.4 +1.2 +0.7 89.6 94.2 +1.8 +1.5 88.8 92.9 +1.0 +0.2 0.36
92.9 87.7 92.3 87.6 88.2 93.2 +0.5 +0.3 89.1 93.6 +1.4 +0.7 88.9 93.3 +1.2 +0.4 92.9 87.7 92.3 87.6 88.2 93.2 +0.5 +0.3 89.1 93.6 +1.4 +0.7 88.9 93.3 +1.2 +0.4 0.36
90.8 92.4 92.6 92.7 95.3 94.1 93.0 95.7 90.8 92.4 92.6 92.7 95.3 94.1 93.0 95.7 0.42
92.7 93.7 +1.0 94.6 +1.9 94.1 +1.4 92.7 93.7 +1.0 94.6 +1.9 94.1 +1.4 0.38
95.3 96.0 +0.7 96.0 +0.7 95.6 +0.3 95.3 96.0 +0.7 96.0 +0.7 95.6 +0.3 0.38
95.8 95.5 96.2 +0.4 96.7 +0.9 96.4 +0.6 95.8 95.5 96.2 +0.4 96.7 +0.9 96.4 +0.6 0.38
70.5 76.1 73.2 74.8 79.8 75.9 78.3 80.7 70.5 76.1 73.2 74.8 79.8 75.9 78.3 80.7 0.42
74.9 75.8 +0.9 77.5 +2.6 76.7 +1.8 74.9 75.8 +0.9 77.5 +2.6 76.7 +1.8 0.38
76.9 77.9 +1.0 81.0 +4.1 78.5 +1.6 76.9 77.9 +1.0 81.0 +4.1 78.5 +1.6 0.38
– 79.1 79.8 +0.7 81.3 +2.2 80.6 +1.5 – 79.1 79.8 +0.7 81.3 +2.2 80.6 +1.5 0.61
85.6 88.6 87.0 87.8 91.2 88.4 90.7 92.0 85.6 88.6 87.0 87.8 91.2 88.4 90.7 92.0 0.42
87.0 87.8 +0.8 89.1 +2.1 88.6 +1.6 87.0 87.8 +0.8 89.1 +2.1 88.6 +1.6 0.38
89.8 90.6 +0.8 92.0 +2.2 91.3 +1.5 89.8 90.6 +0.8 92.0 +2.2 91.3 +1.5 0.38
– 90.8 91.4 +0.6 91.7 +0.9 91.7 +0.9 – 90.8 91.4 +0.6 91.7 +0.9 91.7 +0.9 0.61
94.3 95.2 94.4 94.8 96.3 94.9 96.3 96.7 94.3 95.2 94.4 94.8 96.3 94.9 96.3 96.7 0.42
93.9 94.6 +0.7 95.5 +1.5 95.2 +1.3 93.9 94.6 +0.7 95.5 +1.5 95.2 +1.3 0.38
95.9 95.9 +0.0 97.2 +1.3 96.7 +0.8 95.9 95.9 +0.0 97.2 +1.3 96.7 +0.8 0.38
– 96.2 96.5 +0.3 96.9 +0.7 96.6 +0.4 – 96.2 96.5 +0.3 96.9 +0.7 96.6 +0.4 0.61
85.3 88.6 86.2 88.6 91.0 85.7 87.8 90.4 85.3 88.6 86.2 88.6 91.0 85.7 87.8 90.4 0.42
86.4 87.7 +1.3 89.1 +2.7 88.4 +2.0 86.4 87.7 +1.3 89.1 +2.7 88.4 +2.0 0.38
90.1 91.8 +1.7 92.2 +2.1 91.9 +1.8 90.1 91.8 +1.7 92.2 +2.1 91.9 +1.8 0.38
– 90.0 90.9 +0.9 91.9 +1.9 91.6 +1.6 – 90.0 90.9 +0.9 91.9 +1.9 91.6 +1.6 0.61
96.6 97.6 95.9 97.0 97.6 95.5 95.7 98.1 96.6 97.6 95.9 97.0 97.6 95.5 95.7 98.1 0.42
94.7 95.9 +1.2 95.7 +1.0 95.4 +0.7 94.7 95.9 +1.2 95.7 +1.0 95.4 +0.7 0.38
97.6 98.0 +0.4 98.5 +0.9 98.3 +0.7 97.6 98.0 +0.4 98.5 +0.9 98.3 +0.7 0.38
– 97.4 98.1 +0.7 98.2 +0.8 98.3 +0.9 – 97.4 98.1 +0.7 98.2 +0.8 98.3 +0.9 0.61
97.8 98.4 97.0 97.8 98.3 96.9 96.8 98.8 97.8 98.4 97.0 97.8 98.3 96.9 96.8 98.8 0.42
96.2 96.5 +0.3 97.1 +0.9 96.8 +0.6 96.2 96.5 +0.3 97.1 +0.9 96.8 +0.6 0.38
98.4 98.9 +0.5 98.6 +0.2 98.7 +0.3 98.4 98.9 +0.5 98.6 +0.2 98.7 +0.3 0.38
– 98.2 98.4 +0.2 98.8 +0.6 98.3 +0.1 – 98.2 98.4 +0.2 98.8 +0.6 98.3 +0.1 0.61
Gain over SOTA SOTAを乗り越える 0.68
+1.7 +1.8 +0.9 +1.7 +1.8 +0.9 0.43
+1.8 +1.3 +0.9 +1.8 +1.3 +0.9 0.43
+0.6 +0.0 +0.5 +0.6 +0.0 +0.5 0.47
+1.2 +0.4 +0.0 +1.2 +0.4 +0.0 0.47
Table 6: Improving the SOTA with our Metrix (Metrix/feature) using Resnet-50 with embedding size d = 512. 表6: 埋め込みサイズd = 512のResnet-50を使用して、Metrix(Metrix/Featur e)を使用したSOTAの改善。 0.65
R@K (%): Recall@K; higher is better. r@k (%): recall@k; higher is better。 0.72
∗: reported by authors. ∗:著者による報告。 0.62
Bold black: best baseline (previous SOTA, one per column). bold black: 最高のベースライン(以前のsota、1カラムあたり1つ)。 0.73
Red: Our new SOTA. Red: 新たなSOTAです。 0.71
Gain over SOTA is over best baseline. SOTA以上の利得は最良基準を超える。 0.66
MS: Multi-Similarity, PA: Proxy Anchor MS: Multi-Similarity, PA: Proxy Anchor 0.96
by 0.5 for MS and PA on CUB200 and Cars196. CUB200とCars196のMSとPAで0.5。 0.72
For SOP and In-Shop, we decay the learning rate by 0.25 for all losses. SOP と In-Shop では、すべての損失に対して学習率が 0.25 減少する。 0.65
The weight decay is set to 0.0001. 重量崩壊は0.0001となる。 0.79
Evaluation protocol We follow the standard evaluation protocol of [30], where half classes are used for training and the other half for testing. 評価プロトコル 半クラスをトレーニングに、残りの半分をテストに使用する[30]の標準評価プロトコルに従います。 0.74
For each test example taken as a query, we find its K-nearest neighbors in the test set excluding itself in the embedding space and we assign it a score of 1 if an example of the same class is contained in the neighbors and 0 otherwise. クエリとして取られた各テスト例に対して、そのk-nearest近傍は埋め込み空間で自身を除いたテスト集合の中に存在し、同じクラスの例が隣のクラスに含まれている場合、1のスコアを割り当てる。 0.77
We measure Recall@K, which is the average of this score over the test set. テストセットの平均値であるRecall@Kを測定します。 0.51
B.2 More results B.2 さらなる結果 0.68
Table 6 is an extension of Table 2 that includes all three mixup types (input, feature, embedding). テーブル6はテーブル2の拡張であり、3つのミックスアップタイプ(インプット、フィーチャー、埋め込み)を含む。 0.79
It shows that not just feature mixup but all mixup types consistently improve the performance of all baseline losses (Cont, MS, PA) across all datasets. 機能ミックスアップだけでなく、すべてのミックスアップタイプは、すべてのデータセットにおけるベースライン損失(Cont、MS、PA)のパフォーマンスを一貫して改善している。 0.66
It also shows that across all baseline losses and all datasets, feature mixup works best, followed by embedding and input mixup. また、すべてのベースライン損失とすべてのデータセットにおいて、機能のミックスアップが最もうまく機能し、組み込みと入力のミックスアップが続くことも示している。
訳抜け防止モード: それはまた すべてのベースライン損失とすべてのデータセットにおいて、機能ミックスアップが最もうまく動作し、組み込みと入力ミックスアップが続く。
0.60
This result confirms the findings of Table 4 on Cars196. この結果はcars196における第4表の結果を裏付けるものである。 0.59
B.3 More ablations B.3 さらなる廃止 0.54
Mixup strength w We study the effect of the mixup strength w in the combination of the clean and mixed loss (10) for different mixup types. 混合強度wは, 異なる混合型に対する清浄と混合損失(10)の組み合わせにおける混合強度wの影響について検討した。 0.83
As shown in Figure 3, mixup consistently improves the baseline and the effect of w is small, especially for input and embedding mixup. 図3に示すように、ミックスアップは一貫してベースラインを改善し、特に入力と埋め込みのミックスアップの場合、wの効果は小さい。 0.64
Feature mixup works best and is slightly more sensitive. 機能のミックスアップは最適で、やや敏感だ。 0.66
15 15 0.85
英語(論文から抽出)日本語訳スコア
baseline embedding ベースライン埋め込み 0.65
input feature 90 88 入力機能 90 88 0.82
86 84 82 80 86 84 82 80 0.85
1 @ l l a c e R 1 @ l l a c e R 0.85
Figure 3: Effect of mixup strength for different mixup types using contrastive loss and R-50 with embedding size d = 512 on Cars196. 図3: コントラスト損失を用いた異なるミックスアップタイプに対するミックスアップ強度と、cars196への埋め込みサイズd = 512によるr-50の効果。 0.67
Recall@K (%): higher is better. Recall@K (%): より高い方がよい。 0.91
0.2 0.4 0.6 0.2 0.4 0.6 0.59
0.8 1 mixup strength w 0.8 1 ミックスアップ強度w 0.73
Ablation on CUB200 We perform additional ablations on CUB200 using R-50 with d = 128 by applying contrastive loss. CUB200のアブレーション コントラッシブロスを適用して、R-50とd = 18でCUB200にさらなるアブレーションを行う。 0.55
All results are shown in Table 7. すべての結果は表7に示されます。 0.77
One may draw the same conclusions as from Table 4 on Cars196 with d = 512, which confirms that our choice of hard negatives and mixup pairs is generalizable across different datasets and embedding sizes. Cars196 の Table 4 と d = 512 で同じ結論を導き、ハードネガティブとミックスアップペアの選択が、異なるデータセットと埋め込みサイズで一般化可能であることを確認します。 0.70
In particular, following the settings of subsection 4.4, we observe in Table 7 that using k = 3 hard negatives for input mixup and all pairs for feature/embedding mixup achieves the best performance in terms of Recall@1. 特に、第4条4項の設定に従うと、入力ミックスアップに k = 3 個のハードネガティブを使用し、特徴/埋め込みミックスアップのすべてのペアが Recall@1 で最高のパフォーマンスを達成することを表7で観察する。 0.61
Similarly, using a single set of mixing pairs, positive-negative and anchornegative consistently outperform the baseline, whereas positive-positive is inferior than the baseline. 同様に、単一の混合ペアを使用すると、正負とアンカー負はベースラインを一貫して上回るが、正負はベースラインより劣る。 0.73
Furthermore, combining positive-negative and anchor-negative pairs by choosing uniformly at random in each iteration achieves the best overall performance. さらに、各イテレーションでランダムにランダムに選択することで、正負対とアンカー負対を組み合わせることで、全体的なパフォーマンスが最高のものとなる。 0.50
We also study the effect of using more than one mixup type (input, feature,embedding), chosen uniformly at random per iteration. また,複数のミックスアップタイプ(インプット,フィーチャー,エンベディング)を用いて,イテレーション毎にランダムに選択する効果についても検討した。 0.73
The set of mixing pairs is also chosen from (positive-negative, anchor-negative) uniformly at random per iteration in this study. 混合対の組はまた、この研究において反復ごとにランダムに(正負、アンカー負)から選択される。 0.71
From Table 7, we observe that although mixing input, features and embedding works best with an improvement of 0.8% over feature mixup alone (64.5 → 65.3), it is computationally expensive due to using input mixup. 表7から, 入力, 特徴, 埋め込みの混合は, 特徴混合単独(64.5 → 65.3)よりも0.8%向上するが, 入力混合を用いることで計算コストがかかることがわかった。 0.82
The next best choice is mixing features and embeddings, which is worse than using feature mixup alone (64.2 vs. 64.5). 次の最良の選択は機能と埋め込みを混ぜることであり、これは機能ミックスアップのみを使うよりも悪い(64.2対64.5)。
訳抜け防止モード: 次の最良の選択は 機能と埋め込みの混合は、機能ミックスアップ単独で使うより悪い(64.2対64.5)。
0.71
This confirms our choice of using feature mixup as default. これは、フィーチャーミックスアップをデフォルトで使用する選択を確認します。 0.54
16 16 0.85
英語(論文から抽出)日本語訳スコア
STUDY baseline hard negatives 研究 ベースライン hard + negative 0.67
mixing pairs 1 2 3 混合ペア 1 2 3 0.78
20 40 all 20 40 all 20~40人 20~40人 0.74
– 3 3 – all all – all all – 3 3 すべて すべて 0.50
pos-neg / anc-neg pos-neg / anc-neg pos-neg / anc-neg pos-neg / anc-neg pos-neg / anc-neg pos-neg / anc-neg 0.53
pos-neg / anc-neg pos-neg / anc-neg pos-neg / anc-neg pos-neg / anc-neg pos-neg / anc-neg pos-neg / anc-neg 0.53
pos-neg / anc-neg pos-neg / anc-neg pos-neg / anc-neg pos-neg / anc-neg pos-neg / anc-neg pos-neg / anc-neg 0.53
pos-pos pos-neg anc-neg pos‐pos-neg anc-neg 0.49
pos-pos pos-neg anc-neg pos‐pos-neg anc-neg 0.49
pos-pos pos-neg anc-neg pos‐pos-neg anc-neg 0.49
input input input feature feature feature 入力入力入力 feature feature 0.67
embed embed embed 埋め込み埋め込み埋め込み 0.44
input input input feature feature feature 入力入力入力 feature feature 0.67
embed embed embed 埋め込み埋め込み埋め込み 0.44
61.6 62.4 62.7 63.1 61.6 62.4 62.7 63.1 0.53
63.9 63.5 64.5 63.9 63.5 64.5 0.47
63.1 63.5 64.0 63.1 63.5 64.0 0.47
58.7 62.9 62.8 58.7 62.9 62.8 0.47
61.0 63.9 63.8 61.0 63.9 63.8 0.47
59.7 63.8 63.5 59.7 63.8 63.5 0.47
63.9 63.4 64.2 65.3 63.9 63.4 64.2 65.3 0.45
73.7 73.9 74.2 74.5 73.7 73.9 74.2 74.5 0.53
75.0 75.2 75.4 75.0 75.2 75.4 0.47
74.3 74.7 75.1 74.3 74.7 75.1 0.47
70.7 75.1 74.7 70.7 75.1 74.7 0.47
73.1 75.0 74.8 73.1 75.0 74.8 0.47
72.2 75.1 75.0 72.2 75.1 75.0 0.47
75.1 74.9 75.2 76.2 75.1 74.9 75.2 76.2 0.45
83.6 83.0 83.6 83.5 83.6 83.0 83.6 83.5 0.53
83.9 83.5 84.3 83.9 83.5 84.3 0.47
83.1 83.6 84.8 83.1 83.6 84.8 0.47
80.1 83.4 83.6 80.1 83.4 83.6 0.47
82.5 83.9 83.6 82.5 83.9 83.6 0.47
82.7 83.3 83.9 82.7 83.3 83.9 0.47
84.9 84.5 84.1 84.4 84.9 84.5 84.1 84.4 0.45
90.1 89.7 90.0 90.3 90.1 89.7 90.0 90.3 0.53
89.9 89.8 90.6 89.9 89.8 90.6 0.47
90.0 90.1 90.9 90.0 90.1 90.9 0.47
87.1 90.6 90.1 87.1 90.6 90.1 0.47
89.7 89.9 90.2 89.7 89.9 90.2 0.47
89.5 90.5 90.5 89.5 90.5 90.5 0.47
90.5 90.1 90.7 91.2 90.5 90.1 90.7 91.2 0.45
HARD NEGATIVES k HARD NEGATIVES k 0.85
MIXING PAIRS MIXUP TYPE 混合ペア MIXUPタイプ 0.68
R@1 R@2 R@4 R@1 R@2 R@4 0.85
R@8 mixup type combinations R@8 mixup (複数形 mixups) 0.65
{1, all} {3, all} {all, all} {1, all} {3, all} {all, all} 0.85
{1, all, all} 1, all, all"に完全一致する 0.59
pos-neg / anc-neg pos-neg / anc-neg pos-neg / anc-neg pos-neg / anc-neg pos-neg / anc-neg pos-neg / anc-neg pos-neg / anc-neg 0.69
{input, feature} {input, embed} {feature, embed} input, feature} {input, embed} {feature, embed} 0.77
{input, feature, embed} 入力,特徴,埋め込み 0.45
Table 7: Ablation study of our Metrix using contrastive loss and R-50 with embedding size d = 128 on CUB200. 表7: 対照損失を用いたメトリクスのアブレーション研究とcub200上の埋め込みサイズd = 128のr-50
訳抜け防止モード: 表7 コントラスト損失を用いたメトリクスのアブレーション研究 and R-50 with Embedding size d = 128 on CUB200。
0.81
R@K (%): Recall@K; higher is better. r@k (%): recall@k; higher is better。 0.72
17 17 0.85
                                   ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。