論文の概要: Self-supervised structured object representation learning
- arxiv url: http://arxiv.org/abs/2508.19864v1
- Date: Wed, 27 Aug 2025 13:28:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.641344
- Title: Self-supervised structured object representation learning
- Title(参考訳): 自己教師型構造化対象表現学習
- Authors: Oussama Hadjerci, Antoine Letienne, Mohamed Abbas Hedjazi, Adel Hafiane,
- Abstract要約: 自己教師付き学習は視覚表現を学習するための強力な技術として登場した。
本稿では, セマンティックグルーピング, インスタンスレベルの分離, 階層的構造化を組み合わせることで, 構造化された視覚表現を構築する自己教師型アプローチを提案する。
提案手法は,新しいProtoScaleモジュールをベースとして,複数の空間スケールにわたる視覚的要素をキャプチャする。
- 参考スコア(独自算出の注目度): 2.747398258852965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning (SSL) has emerged as a powerful technique for learning visual representations. While recent SSL approaches achieve strong results in global image understanding, they are limited in capturing the structured representation in scenes. In this work, we propose a self-supervised approach that progressively builds structured visual representations by combining semantic grouping, instance level separation, and hierarchical structuring. Our approach, based on a novel ProtoScale module, captures visual elements across multiple spatial scales. Unlike common strategies like DINO that rely on random cropping and global embeddings, we preserve full scene context across augmented views to improve performance in dense prediction tasks. We validate our method on downstream object detection tasks using a combined subset of multiple datasets (COCO and UA-DETRAC). Experimental results show that our method learns object centric representations that enhance supervised object detection and outperform the state-of-the-art methods, even when trained with limited annotated data and fewer fine-tuning epochs.
- Abstract(参考訳): 自己教師付き学習(SSL)は視覚表現を学習するための強力な技術として登場した。
最近のSSLアプローチは、グローバルな画像理解において強力な結果をもたらすが、シーンにおける構造化表現のキャプチャには制限がある。
本研究では, セマンティックグルーピング, インスタンスレベルの分離, 階層的構造化を組み合わせることで, 構造化された視覚表現を段階的に構築する自己教師型アプローチを提案する。
提案手法は,新しいProtoScaleモジュールをベースとして,複数の空間スケールにわたる視覚的要素をキャプチャする。
ランダムなトリミングやグローバルな埋め込みに依存するDINOのような一般的な戦略とは異なり、我々は高密度予測タスクのパフォーマンスを向上させるために、拡張ビュー全体にわたるシーンコンテキストを保存します。
我々は,複数のデータセット(COCOとUA-DETRAC)を組み合わせたサブセットを用いて,下流オブジェクト検出タスクの検証を行った。
実験結果から,教師付きオブジェクト検出を向上するオブジェクト中心表現を学習し,アノテートされた限られたデータと微調整の少ないエポックを訓練しても,最先端の手法より優れることがわかった。
関連論文リスト
- Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - De-coupling and De-positioning Dense Self-supervised Learning [65.56679416475943]
Dense Self-Supervised Learning (SSL)メソッドは、複数のオブジェクトでイメージを処理する際に、画像レベルの特徴表現を使用する際の制限に対処する。
本研究は, 層深度やゼロパディングに伴う受容野の増大によって生じる, 結合と位置バイアスに悩まされていることを示す。
我々はCOCOにおける本手法の利点と、オブジェクト分類、セマンティックセグメンテーション、オブジェクト検出のための新しい挑戦的ベンチマークであるOpenImage-MINIについて示す。
論文 参考訳(メタデータ) (2023-03-29T18:07:25Z) - Texture-guided Saliency Distilling for Unsupervised Salient Object
Detection [67.10779270290305]
本研究では, 簡便かつ高精度な塩分濃度の知識を抽出するUSOD法を提案する。
提案手法は,RGB,RGB-D,RGB-T,ビデオSODベンチマーク上での最先端USOD性能を実現する。
論文 参考訳(メタデータ) (2022-07-13T02:01:07Z) - Visuomotor Control in Multi-Object Scenes Using Object-Aware
Representations [25.33452947179541]
ロボット作業におけるオブジェクト指向表現学習の有効性を示す。
本モデルは,サンプル効率のよい制御ポリシーを学習し,最先端のオブジェクト技術より優れている。
論文 参考訳(メタデータ) (2022-05-12T19:48:11Z) - Object discovery and representation networks [78.16003886427885]
本研究では,事前に符号化された構造を自ら発見する自己教師型学習パラダイムを提案する。
Odinはオブジェクト発見と表現ネットワークを結合して意味のある画像のセグメンテーションを発見する。
論文 参考訳(メタデータ) (2022-03-16T17:42:55Z) - Unsupervised Image Classification for Deep Representation Learning [42.09716669386924]
埋め込みクラスタリングを使わずに、教師なしのイメージ分類フレームワークを提案する。
提案手法の有効性を証明するために,ImageNetデータセットの実験を行った。
論文 参考訳(メタデータ) (2020-06-20T02:57:06Z) - Look-into-Object: Self-supervised Structure Modeling for Object
Recognition [71.68524003173219]
我々は,自己スーパービジョンを取り入れた「対象」(具体的かつ内在的に対象構造をモデル化する)を提案する。
認識バックボーンは、より堅牢な表現学習のために大幅に拡張可能であることを示す。
提案手法は汎用オブジェクト認識(ImageNet)や細粒度オブジェクト認識タスク(CUB, Cars, Aircraft)など,多数のベンチマークにおいて大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-03-31T12:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。