論文の概要: Affinity-based Attention in Self-supervised Transformers Predicts
Dynamics of Object Grouping in Humans
- arxiv url: http://arxiv.org/abs/2306.00294v1
- Date: Thu, 1 Jun 2023 02:25:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 18:41:21.207955
- Title: Affinity-based Attention in Self-supervised Transformers Predicts
Dynamics of Object Grouping in Humans
- Title(参考訳): 自己教師付きトランスフォーマーにおける親和性に基づく注意はヒトの物体群形成のダイナミクスを予測する
- Authors: Hossein Adeli, Seoyoung Ahn, Nikolaus Kriegeskorte, Gregory Zelinsky
- Abstract要約: 本稿では,人間の対象に基づく注意散布とセグメンテーションのモデルを提案する。
我々の研究は、トランスフォーマーを含む視覚表現学習モデルを評価するための新しいベンチマークを提供する。
- 参考スコア(独自算出の注目度): 2.485182034310303
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The spreading of attention has been proposed as a mechanism for how humans
group features to segment objects. However, such a mechanism has not yet been
implemented and tested in naturalistic images. Here, we leverage the feature
maps from self-supervised vision Transformers and propose a model of human
object-based attention spreading and segmentation. Attention spreads within an
object through the feature affinity signal between different patches of the
image. We also collected behavioral data on people grouping objects in natural
images by judging whether two dots are on the same object or on two different
objects. We found that our models of affinity spread that were built on feature
maps from the self-supervised Transformers showed significant improvement over
baseline and CNN based models on predicting reaction time patterns of humans,
despite not being trained on the task or with any other object labels. Our work
provides new benchmarks for evaluating models of visual representation learning
including Transformers.
- Abstract(参考訳): 人間のグループがどのようにセグメンテーションオブジェクトを特徴付けるかのメカニズムとして注目の拡散が提案されている。
しかし、そのようなメカニズムは、まだ自然主義的な画像で実装およびテストされていない。
本稿では,自己監督型視覚変換器の機能マップを活用し,人間の対象に基づく注意分散とセグメンテーションのモデルを提案する。
注意は、画像の異なるパッチ間の特徴親和性信号を介してオブジェクト内に広がる。
また,2つの点が同一物なのか,あるいは2つの異なる物体なのかを判定することで,自然画像中の物体をグループ化する人々の行動データを収集した。
自己教師型トランスフォーマーの機能マップ上に構築した親和性スプレッドは,タスクや他のオブジェクトラベルでトレーニングされていないにもかかわらず,人間の反応時間パターンを予測する上で,ベースラインやCNNベースモデルよりも大幅に改善されていることがわかった。
本研究はトランスフォーマーを含む視覚表現学習のモデルを評価するための新しいベンチマークを提供する。
関連論文リスト
- Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。
我々は500人以上の参加者から行動データの35万件の試行を収集した。
次に、一般的な視覚モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-09-09T17:59:13Z) - Towards a Unified Transformer-based Framework for Scene Graph Generation
and Human-object Interaction Detection [116.21529970404653]
本稿では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。
本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。
提案手法は最先端のHOI法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-03T07:25:57Z) - Optical Flow boosts Unsupervised Localization and Segmentation [22.625511865323183]
ラベルなしビデオにおける光フローを用いた新たな損失項定式化を提案し, 自己教師型VT機能を互いに近づきやすくする。
提案した損失関数を用いて、当初静的画像に基づいて訓練された視覚変換器を微調整する。
論文 参考訳(メタデータ) (2023-07-25T16:45:35Z) - Self-attention in Vision Transformers Performs Perceptual Grouping, Not
Attention [11.789983276366986]
視覚変換器の注意機構は人間の視覚的注意と同様の効果を示す。
その結果,色などの視覚的特徴の類似性から,自己注意モジュール群が刺激に現れることが示唆された。
単トン検出実験において、これらのモデルが人間の視覚的注意に利用されるフィードフォワード視覚的サリエンス機構と類似した効果を示すかどうかを検討した。
論文 参考訳(メタデータ) (2023-03-02T19:18:11Z) - Learning Explicit Object-Centric Representations with Vision
Transformers [81.38804205212425]
我々は、マスク付き自動符号化の自己超越タスクを構築し、トランスフォーマーを用いたオブジェクト中心表現学習の有効性を探求する。
複数のマルチオブジェクト・ベンチマークのセグメンテーション・メトリクスによって測定された単純なシーンを効率的に分解できることを示す。
論文 参考訳(メタデータ) (2022-10-25T16:39:49Z) - Object-Region Video Transformers [100.23380634952083]
本稿では,オブジェクト表現でトランスフォーマー映像層を拡張するエポbject中心のアプローチであるObject-Region Transformers Video(ORViT)を提案する。
ORViTブロックは2つのオブジェクトレベルのストリームで構成されています。
オブジェクト表現をトランスフォーマーアーキテクチャに組み込んだモデルの価値を実証し、全てのタスクにまたがってパフォーマンスを強く向上させ、検討する。
論文 参考訳(メタデータ) (2021-10-13T17:51:46Z) - HOTR: End-to-End Human-Object Interaction Detection with Transformers [26.664864824357164]
そこで本研究では, HOTRが提唱する, 画像からヒト, オブジェクト, 相互作用> トリプレットの集合を直接予測する新しいフレームワークを提案する。
提案アルゴリズムは,2つのHOI検出ベンチマークにおいて,オブジェクト検出後1ms以下の推論時間で最新の性能を実現する。
論文 参考訳(メタデータ) (2021-04-28T10:10:29Z) - DyStaB: Unsupervised Object Segmentation via Dynamic-Static
Bootstrapping [72.84991726271024]
我々は,コヒーレントなシーン全体を移動しているように見えるシーンの画像の一部を検出し,分割するための教師なしの手法について述べる。
提案手法はまず,セグメント間の相互情報を最小化することにより,運動場を分割する。
セグメントを使用してオブジェクトモデルを学習し、静的なイメージの検出に使用することができる。
論文 参考訳(メタデータ) (2020-08-16T22:05:13Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。