論文の概要: Heterogeneous Contrastive Learning: Encoding Spatial Information for
Compact Visual Representations
- arxiv url: http://arxiv.org/abs/2011.09941v1
- Date: Thu, 19 Nov 2020 16:26:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 20:32:49.124036
- Title: Heterogeneous Contrastive Learning: Encoding Spatial Information for
Compact Visual Representations
- Title(参考訳): 不均一コントラスト学習:コンパクトな視覚表現のための空間情報の符号化
- Authors: Xinyue Huo, Lingxi Xie, Longhui Wei, Xiaopeng Zhang, Hao Li, Zijie
Yang, Wengang Zhou, Houqiang Li, Qi Tian
- Abstract要約: 本稿では,エンコーディング段階に空間情報を加えることで,対照的な目的と強いデータ拡張操作の間の学習の不整合を緩和する効果的な手法を提案する。
提案手法は,視覚表現の効率を向上し,自己指導型視覚表現学習の今後の研究を刺激する鍵となるメッセージを提供する。
- 参考スコア(独自算出の注目度): 183.03278932562438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive learning has achieved great success in self-supervised visual
representation learning, but existing approaches mostly ignored spatial
information which is often crucial for visual representation. This paper
presents heterogeneous contrastive learning (HCL), an effective approach that
adds spatial information to the encoding stage to alleviate the learning
inconsistency between the contrastive objective and strong data augmentation
operations. We demonstrate the effectiveness of HCL by showing that (i) it
achieves higher accuracy in instance discrimination and (ii) it surpasses
existing pre-training methods in a series of downstream tasks while shrinking
the pre-training costs by half. More importantly, we show that our approach
achieves higher efficiency in visual representations, and thus delivers a key
message to inspire the future research of self-supervised visual representation
learning.
- Abstract(参考訳): コントラスト学習は自己指導型視覚表現学習において大きな成功を収めてきたが、既存のアプローチは視覚表現にとって重要な空間情報を無視している。
本稿では,HCL(ヘテロジニアス・コントラクティブ・ラーニング)を提案する。この手法は,エンコーディング段階に空間情報を付加することで,コントラクティブ・オブジェクトと強データ拡張操作との間の学習の不整合を緩和する。
我々はHCLの有効性を示す。
(i)事例識別において高い精度を達成すること、及び
(ii)前訓練コストを半分に抑えつつ、一連の下流作業において既存の前訓練方法を超えること。
さらに,本手法は視覚表現の効率を向上し,自己指導型視覚表現学習の今後の研究を刺激する鍵となるメッセージを提供する。
関連論文リスト
- ICT: Image-Object Cross-Level Trusted Intervention for Mitigating Object Hallucination in Large Vision-Language Models [32.24716280370563]
ICTは、異なるレベルの視覚情報に焦点を移すための介入方向を計算する軽量でトレーニング不要な手法である。
少量のデータで強力なパフォーマンスを実現し、さまざまなデータセットやモデルにまたがってうまく一般化する。
論文 参考訳(メタデータ) (2024-11-22T12:22:21Z) - LAC: Graph Contrastive Learning with Learnable Augmentation in Continuous Space [16.26882307454389]
直交連続空間における学習可能なデータ拡張を伴うグラフコントラスト学習フレームワークであるLACを紹介する。
拡張中にグラフデータ中の代表情報をキャプチャするために,連続的なビューオーグメンタを導入する。
本稿ではInfoBalという情報理論の原理を提案し,それに対応する前提課題を提案する。
実験の結果,LACは最先端のフレームワークよりも優れていた。
論文 参考訳(メタデータ) (2024-10-20T10:47:15Z) - Multi-Grained Contrast for Data-Efficient Unsupervised Representation Learning [10.630297877530614]
教師なし表現学習のための新しいマルチグラインドコントラスト法(MGC)を提案する。
具体的には、ポジティブビュー間の微妙な多重粒度対応を構築し、その上で、対応によって多粒度コントラストを行い、より一般的な教師なし表現を学習する。
提案手法は,オブジェクト検出,インスタンスセグメンテーション,シーン解析,セマンティックセグメンテーション,キーポイント検出など,広範囲なダウンストリームタスクにおいて,既存の最先端手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2024-07-02T07:35:21Z) - Visual In-Context Learning for Large Vision-Language Models [62.5507897575317]
大規模視覚言語モデル(LVLM)では、言語間相互作用や表現格差の課題により、ICL(In-Context Learning)の有効性が制限されている。
本稿では,視覚的記述型検索,意図的画像要約,意図的記述型合成を含む新しい視覚的記述型学習(VICL)手法を提案する。
提案手法は'Retrieval & Rerank'パラダイムを用いて画像を検索し,タスク意図とタスク固有の視覚的パーシングで画像を要約し,言語による実演を構成する。
論文 参考訳(メタデータ) (2024-02-18T12:43:38Z) - A Probabilistic Model Behind Self-Supervised Learning [53.64989127914936]
自己教師付き学習(SSL)では、アノテートラベルなしで補助的なタスクを通じて表現が学習される。
自己教師型学習のための生成潜在変数モデルを提案する。
対照的な方法を含む識別的SSLのいくつかのファミリーは、表現に匹敵する分布を誘導することを示した。
論文 参考訳(メタデータ) (2024-02-02T13:31:17Z) - Focalized Contrastive View-invariant Learning for Self-supervised
Skeleton-based Action Recognition [16.412306012741354]
本稿では,FoCoViL(Focalized Contrastive View-invariant Learning)という自己教師型フレームワークを提案する。
FoCoViLは、視点が粗い整列された表現空間上のビュー固有情報を著しく抑制する。
アクションと共通のビュー不変プロパティを関連付け、異種プロパティを同時に分離する。
論文 参考訳(メタデータ) (2023-04-03T10:12:30Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Self-supervised Co-training for Video Representation Learning [103.69904379356413]
実例に基づく情報ノイズコントラスト推定訓練に意味クラス正の付加を施すことの利点について検討する。
本稿では,インフォネッションNCEの損失を改善するための,自己指導型協調学習手法を提案する。
本研究では,2つの下流タスク(行動認識とビデオ検索)における学習表現の質を評価する。
論文 参考訳(メタデータ) (2020-10-19T17:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。