論文の概要: Human-like Object Grouping in Self-supervised Vision Transformers
- arxiv url: http://arxiv.org/abs/2603.13994v1
- Date: Sat, 14 Mar 2026 15:43:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.530864
- Title: Human-like Object Grouping in Self-supervised Vision Transformers
- Title(参考訳): 自己監督型視覚変換器におけるヒューマンライクなオブジェクトグループ化
- Authors: Hossein Adeli, Seoyoung Ahn, Andrew Luo, Mengmi Zhang, Nikolaus Kriegeskorte, Gregory Zelinsky,
- Abstract要約: 本稿では,自然主義的な場面における点対に対する同一・異なる対象判断を行う行動ベンチマークを提案する。
我々は、被験者の反応時間を予測するために、その表現からの単純な読み出しを用いて、多様な視覚モデルをテストする。
自己教師型視覚モデルでは, 物体の構造を人間の行動的に捉え, グラム行列構造が知覚的アライメントを駆動する役割を担っていることを示す。
- 参考スコア(独自算出の注目度): 9.933177928703172
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision foundation models trained with self-supervised objectives achieve strong performance across diverse tasks and exhibit emergent object segmentation properties. However, their alignment with human object perception remains poorly understood. Here, we introduce a behavioral benchmark in which participants make same/different object judgments for dot pairs on naturalistic scenes, scaling up a classical psychophysics paradigm to over 1000 trials. We test a diverse set of vision models using a simple readout from their representations to predict subjects' reaction times. We observe a steady improvement across model generations, with both architecture and training objective contributing to alignment, and transformer-based models trained with the DINO self-supervised objective showing the strongest performance. To investigate the source of this improvement, we propose a novel metric to quantify the object-centric component of representations by measuring patch similarity within and between objects. Across models, stronger object-centric structure predicts human segmentation behavior more accurately. We further show that matching the Gram matrix of supervised transformer models, capturing similarity structure across image patches, with that of a self-supervised model through distillation improves their alignment with human behavior, converging with the prior finding that Gram anchoring improves DINOv3's feature quality. Together, these results demonstrate that self-supervised vision models capture object structure in a behaviorally human-like manner, and that Gram matrix structure plays a role in driving perceptual alignment.
- Abstract(参考訳): 自己教師対象で訓練された視覚基礎モデルは、多様なタスクにまたがって強力なパフォーマンスを達成し、創発的なオブジェクトセグメンテーション特性を示す。
しかし、人間の物体知覚との整合性はいまだによく理解されていない。
本稿では,古典心理学のパラダイムを1000以上の試行に拡張した,自然主義的な場面における点対に対する同一・異なる対象判断を行う行動ベンチマークを提案する。
我々は、被験者の反応時間を予測するために、その表現からの単純な読み出しを用いて、多様な視覚モデルをテストする。
我々は、アーキテクチャとトレーニング目的の両方がアライメントに寄与し、DINOの自己監督目標によって訓練されたトランスフォーマーベースモデルにより、モデル世代間で着実に改善されていることを観察する。
そこで本研究では,オブジェクト間のパッチ類似度を測定することにより,オブジェクト中心の表現成分を定量化する手法を提案する。
モデル全体で、より強力なオブジェクト中心構造は、人間のセグメンテーションの振る舞いをより正確に予測する。
さらに, 教師付きトランスフォーマーモデルのグラム行列のマッチング, イメージパッチ間の類似性構造と蒸留による自己監督モデルとのマッチングにより, 人間の行動との整合性が向上し, グラムアンカーがDINOv3の特徴的品質を向上することを示す。
これらの結果は、自己監督型視覚モデルが、行動的人間的な方法で物体構造を捉え、グラム行列構造が知覚的アライメントを駆動する役割を担っていることを示す。
関連論文リスト
- Investigating Fine- and Coarse-grained Structural Correspondences Between Deep Neural Networks and Human Object Image Similarity Judgments Using Unsupervised Alignment [0.14999444543328289]
我々は、Gromov-Wasserstein Optimal Transportに基づく教師なしアライメント手法を用いて、人間とモデルオブジェクトの表現を比較する。
CLIPでトレーニングされたモデルは、人間のオブジェクト表現と強い微粒化と粗粒化のマッチングを一貫して達成している。
この結果から,正確な対象表現の獲得における言語情報の役割について,新たな知見が得られた。
論文 参考訳(メタデータ) (2025-05-22T09:06:06Z) - A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning [67.72413262980272]
事前訓練された視覚モデル(PVM)は現代のロボティクスの基本であるが、その最適構成は定かではない。
セマンティック・ボトルネックを導入してオブジェクト中心の表現を誘導する手法であるSlotMIMを開発した。
提案手法は,画像認識,シーン理解,ロボット学習評価において,従来の作業よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-03-10T06:18:31Z) - Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - Towards a Unified Transformer-based Framework for Scene Graph Generation
and Human-object Interaction Detection [116.21529970404653]
本稿では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。
本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。
提案手法は最先端のHOI法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-03T07:25:57Z) - Affinity-based Attention in Self-supervised Transformers Predicts
Dynamics of Object Grouping in Humans [2.485182034310303]
本稿では,人間の対象に基づく注意散布とセグメンテーションのモデルを提案する。
我々の研究は、トランスフォーマーを含む視覚表現学習モデルを評価するための新しいベンチマークを提供する。
論文 参考訳(メタデータ) (2023-06-01T02:25:55Z) - Objectives Matter: Understanding the Impact of Self-Supervised
Objectives on Vision Transformer Representations [13.437097059358067]
本研究では,再建型学習機能と共同埋め込み型学習機能との相違について述べる。
結合埋め込み特性は,異なる目的が異なる情報分布を駆動するため,分類のための線形プローブ転送の精度が向上することがわかった。
論文 参考訳(メタデータ) (2023-04-25T18:48:23Z) - Towards Self-Supervised Category-Level Object Pose and Size Estimation [121.28537953301951]
本研究は,一深度画像からのカテゴリレベルのオブジェクトポーズとサイズ推定のための自己教師型フレームワークを提案する。
我々は、同じ形状の点雲における幾何学的整合性を利用して自己超越する。
論文 参考訳(メタデータ) (2022-03-06T06:02:30Z) - Appearance Consensus Driven Self-Supervised Human Mesh Recovery [67.20942777949793]
単眼画像から人間のポーズや形状を推定する自己教師付きメッシュ回復フレームワークを提案する。
標準モデルに基づく3次元ポーズ推定ベンチマークの最先端結果を得る。
その結果、色付きメッシュ予測により、ポーズや形状推定以外にも、さまざまな外観関連タスクにフレームワークの使用が開放される。
論文 参考訳(メタデータ) (2020-08-04T05:40:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。