論文の概要: PADS: Policy-Adapted Sampling for Visual Similarity Learning
- arxiv url: http://arxiv.org/abs/2003.11113v2
- Date: Sat, 28 Mar 2020 12:56:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 09:27:32.977426
- Title: PADS: Policy-Adapted Sampling for Visual Similarity Learning
- Title(参考訳): PADS:視覚的類似性学習のためのポリシー適応サンプリング
- Authors: Karsten Roth, Timo Milbich, Bj\"orn Ommer
- Abstract要約: 視覚的類似性を学ぶには、通常、画像の三重項間の学習関係が必要である。
現在、目立ったパラダイムは、トレーニングが始まる前に事前に定義された、固定またはカリキュラムのサンプリング戦略である。
我々は、強化学習を採用し、学習者のネットワークの現在の状態に基づいて、サンプリング分布を調整させる。
- 参考スコア(独自算出の注目度): 19.950682531209154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning visual similarity requires to learn relations, typically between
triplets of images. Albeit triplet approaches being powerful, their
computational complexity mostly limits training to only a subset of all
possible training triplets. Thus, sampling strategies that decide when to use
which training sample during learning are crucial. Currently, the prominent
paradigm are fixed or curriculum sampling strategies that are predefined before
training starts. However, the problem truly calls for a sampling process that
adjusts based on the actual state of the similarity representation during
training. We, therefore, employ reinforcement learning and have a teacher
network adjust the sampling distribution based on the current state of the
learner network, which represents visual similarity. Experiments on benchmark
datasets using standard triplet-based losses show that our adaptive sampling
strategy significantly outperforms fixed sampling strategies. Moreover,
although our adaptive sampling is only applied on top of basic triplet-learning
frameworks, we reach competitive results to state-of-the-art approaches that
employ diverse additional learning signals or strong ensemble architectures.
Code can be found under https://github.com/Confusezius/CVPR2020_PADS.
- Abstract(参考訳): 視覚の類似性を学ぶには、通常画像の三重項間の関係を学ぶ必要がある。
トリプレットのアプローチは強力だが、計算複雑性はトレーニングを可能なトレーニングトリプレットのサブセットのみに制限する。
したがって、学習中にどのトレーニングサンプルを使うかを決めるサンプリング戦略が不可欠である。
現在、顕著なパラダイムは、トレーニング開始前に事前に定義された固定またはカリキュラムサンプリング戦略である。
しかし、この問題はトレーニング中の類似性表現の実際の状態に基づいて調整するサンプリングプロセスを本当に求めている。
そこで我々は強化学習を採用し,教師ネットワークに視覚類似性を表す学習者ネットワークの現在の状態に基づいてサンプリング分布を調整させる。
標準のトリプレットに基づく損失を用いたベンチマークデータセットの実験は、我々の適応サンプリング戦略が固定サンプリング戦略を大きく上回っていることを示している。
さらに, 適応サンプリングは基本的な三重奏学習フレームワーク上でのみ適用されるが, 多様な学習信号や強力なアンサンブルアーキテクチャを用いた最先端のアプローチと競合する結果が得られる。
コードはhttps://github.com/Confusezius/CVPR2020_PADSで見ることができる。
関連論文リスト
- Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs [73.74375912785689]
本稿では,音声認識システムのための統合学習戦略を提案する。
3つのタスクの1つのモデルをトレーニングすることで、VSRとAVSRの性能が向上することを示す。
また,非ラベル標本をより効果的に活用するために,強欲な擬似ラベリング手法を導入する。
論文 参考訳(メタデータ) (2024-11-04T16:46:53Z) - Rethinking the Key Factors for the Generalization of Remote Sensing Stereo Matching Networks [15.456986824737067]
ステレオマッチングタスクは高価な空中LiDARデータに依存している。
本稿では,3つの視点から重要なトレーニング要因について検討する。
一般化性能のよい教師なしステレオマッチングネットワークを提案する。
論文 参考訳(メタデータ) (2024-08-14T15:26:10Z) - RanDumb: A Simple Approach that Questions the Efficacy of Continual Representation Learning [68.42776779425978]
既存のオンライン学習深層ネットワークは、単純な事前定義されたランダム変換に比べて劣った表現を生成することを示す。
続いて、オンライン連続学習環境において、前例を保存せずに単純な線形分類器をトレーニングし、一度に1つのサンプルを処理します。
本研究は, 表現学習の大きな限界, 特に低経験, オンライン連続学習のシナリオについて明らかにした。
論文 参考訳(メタデータ) (2024-02-13T22:07:29Z) - Sampling Through the Lens of Sequential Decision Making [9.101505546901999]
我々はアダプティブ・サンプル・ウィズ・リワード(ASR)と呼ばれる報酬誘導型サンプリング戦略を提案する。
提案手法は,サンプリング過程を最適に調整し,最適性能を実現する。
情報検索とクラスタリングの実証的な結果は、異なるデータセット間でのASRのスーパーブパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-08-17T04:01:29Z) - Partner-Assisted Learning for Few-Shot Image Classification [54.66864961784989]
人間の視覚能力を模倣し、徹底的な人間のアノテーションを必要とせずに効果的なモデルを学ぶために、わずかなショットラーニングが研究されている。
本稿では,新しいクラスのプロトタイプをラベル付きサンプルから推定できるように,要素表現を得るためのトレーニング戦略の設計に焦点をあてる。
本稿では,まずパートナーエンコーダのペアワイド類似性をモデル化し,ソフトアンカーとして機能する特徴を抽出し,その出力をソフトアンカーと整列させ,分類性能を最大化しようとする2段階トレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T22:46:19Z) - Improving speech recognition models with small samples for air traffic
control systems [9.322392779428505]
本研究では, 小さなトレーニングサンプルの課題に対処すべく, 事前学習とトランスファー学習に基づく新しいトレーニング手法を提案する。
3つの実際のATCデータセットを使用して、提案されたASRモデルとトレーニング戦略を検証する。
実験の結果,ASRの性能は3つのデータセットで大幅に向上した。
論文 参考訳(メタデータ) (2021-02-16T08:28:52Z) - Region Comparison Network for Interpretable Few-shot Image
Classification [97.97902360117368]
新しいクラスのモデルをトレーニングするために、ラベル付きサンプルの限られた数だけを効果的に活用するための画像分類が提案されている。
本研究では,領域比較ネットワーク (RCN) と呼ばれる距離学習に基づく手法を提案する。
また,タスクのレベルからカテゴリへの解釈可能性の一般化も提案する。
論文 参考訳(メタデータ) (2020-09-08T07:29:05Z) - MetricUNet: Synergistic Image- and Voxel-Level Learning for Precise CT
Prostate Segmentation via Online Sampling [66.01558025094333]
本稿では,前立腺領域を高速に局在させる第1段階と,前立腺領域を正確に区分する第2段階の2段階のフレームワークを提案する。
マルチタスクネットワークにおけるボクセルワイドサンプリングによる新しいオンラインメトリック学習モジュールを提案する。
本手法は,従来のクロスエントロピー学習法やDice損失学習法と比較して,より代表的なボクセルレベルの特徴を効果的に学習することができる。
論文 参考訳(メタデータ) (2020-05-15T10:37:02Z) - DiVA: Diverse Visual Feature Aggregation for Deep Metric Learning [83.48587570246231]
視覚的類似性は多くのコンピュータビジョンアプリケーションにおいて重要な役割を果たす。
ディープ・メトリック・ラーニング(DML)は、そのような類似性を学ぶための強力なフレームワークである。
我々は,概念的に異なるデータ関係を対象とする複数の補完学習タスクを提案し,研究する。
我々は、訓練信号を集約する単一モデルを学び、その結果、強力な一般化と最先端のパフォーマンスが得られる。
論文 参考訳(メタデータ) (2020-04-28T12:26:50Z) - Dynamic Sampling for Deep Metric Learning [7.010669841466896]
深度メートル法学習は、視覚的に類似した画像を近くの場所にマッピングし、埋め込み多様体内の互いに視覚的に異なる画像を分離する。
トレーニングペアをネットワークに送受信し易い順に整理する動的サンプリング戦略を提案する。
これにより、ネットワークは、初期の簡単なトレーニングペアからカテゴリ間の一般的な境界を学習し、後のハードトレーニングサンプルに主に依存したモデルの詳細を確定することができる。
論文 参考訳(メタデータ) (2020-04-24T09:47:23Z) - Efficient Deep Representation Learning by Adaptive Latent Space Sampling [16.320898678521843]
監視されたディープラーニングには、アノテーションを備えた大量のトレーニングサンプルが必要です。
本稿では,学習プロセスに供給される情報サンプルを適応的に選択する新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-19T22:17:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。