論文の概要: Hyperbolic Contrastive Learning for Visual Representations beyond
Objects
- arxiv url: http://arxiv.org/abs/2212.00653v1
- Date: Thu, 1 Dec 2022 16:58:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 15:20:10.633178
- Title: Hyperbolic Contrastive Learning for Visual Representations beyond
Objects
- Title(参考訳): 物体以外の視覚表現のための双曲的コントラスト学習
- Authors: Songwei Ge, Shlok Mishra, Simon Kornblith, Chun-Liang Li, David Jacobs
- Abstract要約: 我々は,それらの間の構造を保ったオブジェクトやシーンの表現を学習することに集中する。
視覚的に類似した物体が表現空間に近接しているという観察に触発された私たちは、シーンとオブジェクトは代わりに階層構造に従うべきだと論じる。
- 参考スコア(独自算出の注目度): 30.618032825306187
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Although self-/un-supervised methods have led to rapid progress in visual
representation learning, these methods generally treat objects and scenes using
the same lens. In this paper, we focus on learning representations for objects
and scenes that preserve the structure among them.
Motivated by the observation that visually similar objects are close in the
representation space, we argue that the scenes and objects should instead
follow a hierarchical structure based on their compositionality. To exploit
such a structure, we propose a contrastive learning framework where a Euclidean
loss is used to learn object representations and a hyperbolic loss is used to
encourage representations of scenes to lie close to representations of their
constituent objects in a hyperbolic space. This novel hyperbolic objective
encourages the scene-object hypernymy among the representations by optimizing
the magnitude of their norms. We show that when pretraining on the COCO and
OpenImages datasets, the hyperbolic loss improves downstream performance of
several baselines across multiple datasets and tasks, including image
classification, object detection, and semantic segmentation. We also show that
the properties of the learned representations allow us to solve various vision
tasks that involve the interaction between scenes and objects in a zero-shot
fashion. Our code can be found at
\url{https://github.com/shlokk/HCL/tree/main/HCL}.
- Abstract(参考訳): 自己教師なしの手法は、視覚表現学習の急速な進歩をもたらしたが、これらの手法は一般に同じレンズを使ってオブジェクトやシーンを扱う。
本稿では,その間の構造を保ったオブジェクトやシーンの表現を学習することに焦点を当てる。
視覚的に類似したオブジェクトが表現空間に近接しているという観察に動機づけられ、シーンとオブジェクトは、その構成性に基づいて階層構造に従うべきであると主張する。
このような構造を利用するために,ユークリッド的損失を対象表現の学習に用い,双曲的損失を双曲的空間における構成的対象の表現に近い位置にあるシーンの表現を促すための対比的学習フレームワークを提案する。
この新たな双曲的目的は、それらのノルムの大きさを最適化することによって、シーンオブジェクトのハイパーネミーを促進する。
また,COCOデータセットとOpenImagesデータセットの事前トレーニングでは,画像分類やオブジェクト検出,セマンティックセグメンテーションなど,複数のデータセットやタスクにまたがる複数のベースラインのダウンストリーム性能が向上することを示した。
また、学習した表現の特性により、ゼロショット方式でシーンとオブジェクト間の相互作用を含む様々な視覚タスクを解くことができることを示す。
我々のコードは \url{https://github.com/shlokk/HCL/tree/main/HCL} にある。
関連論文リスト
- In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation [50.79940712523551]
我々は,非教師対象マスク発見の2段階的アプローチである遅延視覚接地を行い,それに続いて物体接地を行う。
私たちのモデルは、追加のトレーニングは必要ありませんが、5つの公開データセットで優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-08-09T09:28:35Z) - Spotlight Attention: Robust Object-Centric Learning With a Spatial
Locality Prior [88.9319150230121]
オブジェクト中心のビジョンは、シーン内のオブジェクトの明示的な表現を構築することを目的としています。
我々は、空間的局所性を最先端のオブジェクト中心視覚モデルに組み込む。
合成および実世界の両方のデータセットにおけるセグメンテーションオブジェクトの大幅な改善が得られた。
論文 参考訳(メタデータ) (2023-05-31T04:35:50Z) - Object-Compositional Neural Implicit Surfaces [45.274466719163925]
ニューラル暗示表現は、新しいビュー合成と多視点画像からの高品質な3D再構成においてその効果を示した。
本稿では,3次元再構成とオブジェクト表現に高い忠実性を有するオブジェクト合成型ニューラル暗黙表現を構築するための新しいフレームワークであるObjectSDFを提案する。
論文 参考訳(メタデータ) (2022-07-20T06:38:04Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - Continuous Scene Representations for Embodied AI [33.00565252990522]
連続シーン表現 (Continuous Scene Representations, CSR) は、空間内を移動するエンボディエージェントによって構築されたシーン表現である。
私たちの重要な洞察は、オブジェクト間のペアワイズ関係を潜在空間に埋め込むことです。
CSRは、エージェントがシーン内を移動するときにオブジェクトを追跡し、それに従って表現を更新し、部屋の構成の変更を検出する。
論文 参考訳(メタデータ) (2022-03-31T17:55:33Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - Unsupervised Part Discovery from Contrastive Reconstruction [90.88501867321573]
自己監督型視覚表現学習の目標は、強く伝達可能な画像表現を学習することである。
対象部分の発見とセグメンテーションに対する教師なしアプローチを提案する。
本手法は, 細粒度, 視覚的に異なるカテゴリ間でセマンティックな部分を生成する。
論文 参考訳(メタデータ) (2021-11-11T17:59:42Z) - Object-aware Contrastive Learning for Debiased Scene Representation [74.30741492814327]
オブジェクトを自己教師型でローカライズする,オブジェクト認識型コントラスト学習フレームワークを開発した。
また、コントラCAM、オブジェクト認識型乱作、背景混合に基づく2つのデータ拡張を導入し、コントラスト型自己教師型学習における文脈バイアスと背景バイアスを低減した。
論文 参考訳(メタデータ) (2021-07-30T19:24:07Z) - Image Captioning with Visual Object Representations Grounded in the
Textual Modality [14.797241131469486]
テキストと視覚のモダリティ間の共有埋め込み空間の可能性を探る。
本稿では,キャプションシステムの単語埋め込み空間における表現を基礎として,現在の傾向とは逆のアプローチを提案する。
論文 参考訳(メタデータ) (2020-10-19T12:21:38Z) - Deriving Visual Semantics from Spatial Context: An Adaptation of LSA and
Word2Vec to generate Object and Scene Embeddings from Images [0.0]
我々は、注釈付き画像からオブジェクトとシーンの埋め込みを学習するための2つのアプローチを開発した。
最初のアプローチでは、画像全体におけるオブジェクトの共起から、オブジェクトのためのもの、シーンのためのものへの埋め込みを生成する。
第2のアプローチでは、シーンの全体像を分析する代わりに、画像のサブリージョン内のオブジェクトの共起に焦点をあてる。
論文 参考訳(メタデータ) (2020-09-20T08:26:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。