論文の概要: Self-Supervised Ranking for Representation Learning
- arxiv url: http://arxiv.org/abs/2010.07258v2
- Date: Fri, 20 Nov 2020 15:20:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 13:46:12.468962
- Title: Self-Supervised Ranking for Representation Learning
- Title(参考訳): 表現学習のための自己教師付きランキング
- Authors: Ali Varamesh, Ali Diba, Tinne Tuytelaars, Luc Van Gool
- Abstract要約: 本稿では、画像検索コンテキストにおけるランキング問題として定式化することで、自己教師型表現学習のための新しいフレームワークを提案する。
我々は、画像のランダムなビューが正に関連していると考えられるランク付けのための平均精度(AP)を最大化し、表現エンコーダを訓練する。
原則として、ランク付け基準を使用することで、対象中心のキュレートされたデータセットへの依存を排除します。
- 参考スコア(独自算出の注目度): 108.38993212650577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a new framework for self-supervised representation learning by
formulating it as a ranking problem in an image retrieval context on a large
number of random views (augmentations) obtained from images. Our work is based
on two intuitions: first, a good representation of images must yield a
high-quality image ranking in a retrieval task; second, we would expect random
views of an image to be ranked closer to a reference view of that image than
random views of other images. Hence, we model representation learning as a
learning to rank problem for image retrieval. We train a representation encoder
by maximizing average precision (AP) for ranking, where random views of an
image are considered positively related, and that of the other images
considered negatives. The new framework, dubbed S2R2, enables computing a
global objective on multiple views, compared to the local objective in the
popular contrastive learning framework, which is calculated on pairs of views.
In principle, by using a ranking criterion, we eliminate reliance on
object-centric curated datasets. When trained on STL10 and MS-COCO, S2R2
outperforms SimCLR and the clustering-based contrastive learning model, SwAV,
while being much simpler both conceptually and at implementation. On MS-COCO,
S2R2 outperforms both SwAV and SimCLR with a larger margin than on STl10. This
indicates that S2R2 is more effective on diverse scenes and could eliminate the
need for an object-centric large training dataset for self-supervised
representation learning.
- Abstract(参考訳): 本稿では,画像から得られる多数のランダムビュー(拡張)に基づいて,画像検索コンテキストにおけるランキング問題として定式化することで,自己指導型表現学習のための新しいフレームワークを提案する。
まず、画像の良質な表現は、検索タスクにおいて高品質な画像ランキングを得る必要があり、次に、画像のランダムなビューは他の画像のランダムなビューよりも、その画像の参照ビューに近い位置にランク付けされることを期待する。
したがって、画像検索におけるランク付け問題の学習として表現学習をモデル化する。
平均精度 (ap) を最大化することで表現エンコーダを訓練し, 画像のランダムなビューが正の相関をみせ, その他の画像は負の相関をみせている。
S2R2と呼ばれる新しいフレームワークは、一対のビューで計算される一般的なコントラスト学習フレームワークのローカルな目的と比較して、複数のビューでグローバルな目的を計算できる。
原則として、ランキング基準を使用することで、オブジェクト中心のキュレートされたデータセットへの依存をなくす。
STL10とMS-COCOでトレーニングすると、S2R2はSimCLRとクラスタリングベースのコントラスト学習モデルSwAVより優れ、概念的にも実装的にもはるかにシンプルである。
MS-COCOでは、S2R2はSwAVとSimCLRをSTl10よりも大きなマージンで上回る。
これは、S2R2が多様なシーンでより効果的であることを示し、自己教師付き表現学習のためのオブジェクト中心の大規模なトレーニングデータセットの必要性を排除している。
関連論文リスト
- Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Advancing Image Retrieval with Few-Shot Learning and Relevance Feedback [5.770351255180495]
Image Retrieval with Relevance Feedback (IRRF) は、検索プロセス中に反復的なヒューマンインタラクションを伴う。
本稿では,タスクに適したハイパーネットワークに基づく新しいスキームを提案し,ユーザフィードバックの迅速な調整を容易にする。
提案手法は,数発の1クラス分類でSoTAを達成でき,数発のオープンセット認識のバイナリ分類タスクで同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2023-12-18T10:20:28Z) - Siamese Image Modeling for Self-Supervised Vision Representation
Learning [73.78790119050056]
自己教師付き学習(SSL)は、さまざまな下流視覚タスクにおいて優れたパフォーマンスを提供している。
2つのメインストリームSSLフレームワーク、すなわちインスタンス識別(ID)とマスク画像モデリング(MIM)が提案されている。
本稿では,拡張ビューの濃密な表現を予測できるSiamese Image Modeling (SIM)を提案する。
論文 参考訳(メタデータ) (2022-06-02T17:59:58Z) - Mix-up Self-Supervised Learning for Contrast-agnostic Applications [33.807005669824136]
コントラストに依存しないアプリケーションのための,最初の混合型自己教師型学習フレームワークを提案する。
クロスドメイン・ミックスアップに基づく画像間の低分散に対処し、画像再構成と透明性予測に基づくプレテキストタスクを構築する。
論文 参考訳(メタデータ) (2022-04-02T16:58:36Z) - Object-aware Contrastive Learning for Debiased Scene Representation [74.30741492814327]
オブジェクトを自己教師型でローカライズする,オブジェクト認識型コントラスト学習フレームワークを開発した。
また、コントラCAM、オブジェクト認識型乱作、背景混合に基づく2つのデータ拡張を導入し、コントラスト型自己教師型学習における文脈バイアスと背景バイアスを低減した。
論文 参考訳(メタデータ) (2021-07-30T19:24:07Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - Towards Unsupervised Deep Image Enhancement with Generative Adversarial
Network [92.01145655155374]
監視されていない画像強調生成ネットワーク(UEGAN)を提案する。
教師なしの方法で所望の特性を持つ画像の集合から、対応する画像と画像のマッピングを学習する。
その結果,提案モデルは画像の美的品質を効果的に向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:22:46Z) - Unsupervised Learning of Dense Visual Representations [14.329781842154281]
本研究では,高密度表現の教師なし学習のためのビュー・アグノスティック・Dense Representation (VADeR)を提案する。
VADeRは、異なる視聴条件に対して局所的な特徴を一定に保ち続けるように強制することで、ピクセルワイズ表現を学習する。
提案手法は、複数の密集予測タスクにおいて、ImageNetの教師付き事前学習よりも優れる。
論文 参考訳(メタデータ) (2020-11-11T01:28:11Z) - G-SimCLR : Self-Supervised Contrastive Learning with Guided Projection
via Pseudo Labelling [0.8164433158925593]
コンピュータビジョンにおいて、ディープニューラルネットワークは大量のラベル付きデータを持つ教師付き設定において、より良い性能を発揮することが明らかである。
本研究では, 温度スケールクロスエントロピー(NT-Xent)損失関数の正規化により, 同じカテゴリの画像が同じバッチにない方が有益であることを示す。
我々は、ラベルのないデータセットで訓練された復号化オートエンコーダの潜在空間表現を使用し、それらをk平均でクラスタリングして擬似ラベルを得る。
論文 参考訳(メタデータ) (2020-09-25T02:25:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。