Fugu-MT 論文翻訳(概要): Learning to Perceive "Where": Spatial Pretext Tasks for Robust Self-Supervised Learning

論文の概要: Learning to Perceive "Where": Spatial Pretext Tasks for Robust Self-Supervised Learning

arxiv url: http://arxiv.org/abs/2605.09963v1
Date: Mon, 11 May 2026 04:15:34 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-12 23:28:50.515713
Title: Learning to Perceive "Where": Spatial Pretext Tasks for Robust Self-Supervised Learning
Title（参考訳）: Where」を知覚する学習:ロバストな自己監督学習のための空間的前提課題
Authors: Yang Shen, Yusen Cai, Weronika Hryniewska-Guzik, Qing Lin, Mengmi Zhang,
Abstract要約: 空間認識型プレテキスト回帰タスクである空間予測を導入し、同じ画像から一対の非絡み合ったローカルビュー間の相対的な位置とスケールを予測する。連続幾何学空間における部分対部分関係をモデル化することにより、SPは表現がきめ細かい空間依存を捉えることを奨励する。実験では、画像認識、きめ細かな分類、セマンティックセグメンテーション、深さ推定、および物体認識におけるアウト・オブ・ディストリビューションの大幅な向上が示されている。
参考スコア（独自算出の注目度）: 17.753167530453997
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing self-supervised learning (SSL) methods primarily learn object-invariant representations but often neglect the spatial structure and relationships among object parts. To address this limitation, we introduce Spatial Prediction (SP), a spatially aware pretext regression task that predicts the relative position and scale between a pair of disentangled local views from the same image. By modeling part-to-part relationships in a continuous geometric space, SP encourages representations to capture fine-grained spatial dependencies beyond invariant categorical semantics, thereby learning the compositional structure of visual scenes. SP is implemented as a decoupled plug-in and can be seamlessly integrated into diverse SSL frameworks. Extensive experiments show consistent improvements across image recognition, fine-grained classification, semantic segmentation, and depth estimation, as well as substantial gains in out-of-distribution robustness for object recognition. To evaluate spatial reasoning, we introduce (1) a position and scale prediction task on image patch pairs and (2) a jigsaw understanding task requiring patch reordering and recognition after reconstruction. Strong performance on these tasks indicates improved spatial structure and geometric awareness. Overall, explicitly modeling spatial information provides an effective inductive bias for SSL, leading to more structured representations and better generalization. Code and models will be released.
Abstract（参考訳）: 既存の自己教師付き学習法(SSL)は主にオブジェクト不変表現を学習するが、しばしばオブジェクト部分間の空間構造と関係を無視する。この制限に対処するため,空間認識型プレテキスト回帰タスクである空間予測(SP)を導入する。連続的な幾何学空間における部分間関係をモデル化することにより、SPは、不変な分類的意味論を超えたきめ細かい空間的依存関係を捉え、視覚シーンの構成構造を学ぶことを奨励する。 SPは分離されたプラグインとして実装されており、多様なSSLフレームワークにシームレスに統合することができる。大規模な実験では、画像認識、きめ細かな分類、セマンティックセグメンテーション、深さ推定、および物体認識におけるアウト・オブ・ディストリビューション・ロバストネスの大幅な向上が示されている。空間的推論を評価するために,(1)イメージパッチペアの位置とスケール予測タスク,(2)再構築後のパッチの並べ替えと認識を必要とするジグソー理解タスクを導入する。これらのタスクの強いパフォーマンスは、空間構造の改善と幾何学的認識を示す。全体として、空間情報を明示的にモデル化することは、SSLに効果的な帰納バイアスを与え、より構造化された表現とより良い一般化をもたらす。コードとモデルはリリースされる。

関連論文リスト

SEMASIA: A Large-Scale Dataset of Semantically Structured Latent Representations [12.185380843937196]
約1,700個の事前学習された視覚モデルから抽出した潜在表現の大規模コレクションであるSEMASIAを紹介する。個々の潜在空間の概念的構造を解析し、一貫したプロトタイプのようなクラスタリングを示す。プレトレーニングデータの複雑性,特殊化,伝達学習,拡張,モデルスケールが,埋め込みの幾何学的および探索的特性とどのように関係しているかを,大規模回帰分析により解析する。
論文参考訳（メタデータ） (2026-05-10T11:42:36Z)
Towards Foundation Models for 3D Scene Understanding: Instance-Aware Self-Supervised Learning for Point Clouds [53.82500407523346]
PointINSは、幾何学的学習を通じてポイントクラウド表現を豊かにする、インスタンス指向の自己組織化フレームワークである。 PointINSは、屋内のインスタンスセグメンテーションで平均+3.5%のmAP改善、屋外のパン光学セグメンテーションで+4.1%のPQゲインを達成している。
論文参考訳（メタデータ） (2026-03-26T08:31:06Z)
PCA-Seg: Revisiting Cost Aggregation for Open-Vocabulary Semantic and Part Segmentation [58.1914505657064]
本稿では,クラスレベルのセマンティクスと空間コンテキスト間の知識干渉の課題を軽減するために,単純な並列コストアグリゲーション(PCA-Seg)パラダイムを提案する。 8つのベンチマークの実験では、PCA-Segの各並列ブロックは0.35万のパラメータしか追加せず、最先端のOSPS性能を実現している。
論文参考訳（メタデータ） (2026-03-18T09:26:43Z)
Learning Sparse Visual Representations via Spatial-Semantic Factorization [37.169502692169196]
自己教師付き学習(SSL)は、意味理解と画像再構成の根本的な対立に直面している。本稿では,視覚的特徴を意味概念とその空間分布の低ランクな製品に分解するフレームワークSTELLARを紹介する。この分解された形の下で16個のスパーストークンが同時に高品質な再構成(2.60 FID)をサポートし、高密度バックボーンのセマンティック性能(79.10% ImageNet精度)に適合することを示す。
論文参考訳（メタデータ） (2026-02-02T10:12:17Z)
Uni-RS: A Spatially Faithful Unified Understanding and Generation Model for Remote Sensing [9.357861053928898]
統一されたリモートセンシングマルチモーダルモデルは、明らかに空間的逆転の呪いを示す。リモートセンシングに適した最初の統一モデルUni-RSを提案する。本研究では,テキスト・画像生成における空間忠実度を大幅に向上させる手法を提案する。
論文参考訳（メタデータ） (2026-01-25T03:22:26Z)
Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。 2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文参考訳（メタデータ） (2025-08-15T06:43:51Z)
Hierarchical Context Alignment with Disentangled Geometric and Temporal Modeling for Semantic Occupancy Prediction [61.484280369655536]
カメラを用いた3Dセマンティック占領予測(SOP)は、限られた2次元画像観察から複雑な3Dシーンを理解するのに不可欠である。既存のSOPメソッドは通常、占有表現学習を支援するためにコンテキストの特徴を集約する。より正確なSOP(Hi-SOP)のための新しい階層型コンテキストアライメントパラダイムを導入する。
論文参考訳（メタデータ） (2024-12-11T09:53:10Z)
Learning Where to Learn in Cross-View Self-Supervised Learning [54.14989750044489]
自己教師付き学習(SSL)は大きな進歩を遂げ、教師付き学習との大きなギャップを狭めた。現在の方法では、埋め込みにピクセルの統一的なアグリゲーションを採用する。本稿では,特徴の空間情報を適応的に集約する学習方法であるLearning Where to Learn(LEWEL)を提案する。
論文参考訳（メタデータ） (2022-03-28T17:02:42Z)
Spatially Consistent Representation Learning [12.120041613482558]
本研究では,空間的に一貫した表現学習アルゴリズム(SCRL)を提案する。ランダムに切り抜かれた局所領域のコヒーレントな空間表現を作ろうとする新しい自己教師付き目的を考案する。ベンチマークデータセットを用いた下流のローカライゼーションタスクでは、提案したSCRLは大幅な性能改善を示す。
論文参考訳（メタデータ） (2021-03-10T15:23:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。