論文の概要: Investigating Fine- and Coarse-grained Structural Correspondences Between Deep Neural Networks and Human Object Image Similarity Judgments Using Unsupervised Alignment
- arxiv url: http://arxiv.org/abs/2505.16419v1
- Date: Thu, 22 May 2025 09:06:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.178255
- Title: Investigating Fine- and Coarse-grained Structural Correspondences Between Deep Neural Networks and Human Object Image Similarity Judgments Using Unsupervised Alignment
- Title(参考訳): 教師なしアライメントを用いた深部ニューラルネットワークと人体画像類似性判断の微粒・粗粒構造対応の検討
- Authors: Soh Takahashi, Masaru Sasaki, Ken Takeda, Masafumi Oizumi,
- Abstract要約: 我々は、Gromov-Wasserstein Optimal Transportに基づく教師なしアライメント手法を用いて、人間とモデルオブジェクトの表現を比較する。
CLIPでトレーニングされたモデルは、人間のオブジェクト表現と強い微粒化と粗粒化のマッチングを一貫して達成している。
この結果から,正確な対象表現の獲得における言語情報の役割について,新たな知見が得られた。
- 参考スコア(独自算出の注目度): 0.14999444543328289
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The learning mechanisms by which humans acquire internal representations of objects are not fully understood. Deep neural networks (DNNs) have emerged as a useful tool for investigating this question, as they have internal representations similar to those of humans as a byproduct of optimizing their objective functions. While previous studies have shown that models trained with various learning paradigms - such as supervised, self-supervised, and CLIP - acquire human-like representations, it remains unclear whether their similarity to human representations is primarily at a coarse category level or extends to finer details. Here, we employ an unsupervised alignment method based on Gromov-Wasserstein Optimal Transport to compare human and model object representations at both fine-grained and coarse-grained levels. The unique feature of this method compared to conventional representational similarity analysis is that it estimates optimal fine-grained mappings between the representation of each object in human and model representations. We used this unsupervised alignment method to assess the extent to which the representation of each object in humans is correctly mapped to the corresponding representation of the same object in models. Using human similarity judgments of 1,854 objects from the THINGS dataset, we find that models trained with CLIP consistently achieve strong fine- and coarse-grained matching with human object representations. In contrast, self-supervised models showed limited matching at both fine- and coarse-grained levels, but still formed object clusters that reflected human coarse category structure. Our results offer new insights into the role of linguistic information in acquiring precise object representations and the potential of self-supervised learning to capture coarse categorical structures.
- Abstract(参考訳): ヒトが物体の内部表現を取得する学習メカニズムは、完全には理解されていない。
ディープニューラルネットワーク(DNN)は、目的関数を最適化する副産物として人間に似た内部表現を持つため、この問題を調査するための有用なツールとして登場した。
従来の研究では、教師付き、自己教師型、CLIPといった様々な学習パラダイムで訓練されたモデルが人間に似た表現を取得することが示されているが、人間の表現との類似性は、主に粗いカテゴリレベルにあるか、より細部まで拡張されているかは定かではない。
本稿では,Gromov-Wasserstein Optimal Transportをベースとした教師なしアライメント手法を用いて,細粒度と粗粒度の両方で人間とモデルオブジェクトの表現を比較する。
この手法の特徴は、従来の表現類似性解析と比較して、人間とモデル表現における各対象の表現間の最適なきめ細かいマッピングを推定することである。
我々は、この非教師なしアライメント手法を用いて、モデル内の同じオブジェクトの対応する表現に対して、人間の各オブジェクトの表現が正しくマッピングされる範囲を評価する。
THINGSデータセットからの1,854個のオブジェクトの人間類似性判定を用いて、CLIPでトレーニングされたモデルは、人間のオブジェクト表現と強い微粒化と粗粒化のマッチングを一貫して達成している。
対照的に、自己教師型モデルは細粒度と粗粒度の両方で限定的なマッチングを示したが、それでも人間の粗粒度構造を反映したオブジェクトクラスタを形成していた。
本研究は,言語情報の役割に関する新たな知見と,粗い分類構造を捉えた自己教師型学習の可能性を提供する。
関連論文リスト
- Training objective drives the consistency of representational similarity across datasets [19.99817888941361]
プラトン表現仮説(Platonic Representation hypothesis)は、最近の基礎モデルは下流タスクのパフォーマンスの関数として共有表現空間に収束していると主張している。
そこで本研究では,モデル間の表現的類似性が,表現を構成するために使用される刺激の集合によってどのように変化するかを測定するための体系的手法を提案する。
目的関数はデータセット間の表現的類似性の一貫性を決定する上で最も重要な要素であることがわかった。
論文 参考訳(メタデータ) (2024-11-08T13:35:45Z) - Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。
我々は500人以上の参加者から行動データの35万件の試行を収集した。
次に、一般的な視覚モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-09-09T17:59:13Z) - Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - Learning Human-Aligned Representations with Contrastive Learning and Generative Similarity [9.63129238638334]
人間は、少数の例から学び、感覚データから有用な情報を抽象化するために効果的な表現に頼る。
ベイズ的類似性の概念を用いて、2つのデータポイントが同じ分布からサンプリングされた場合、類似していると考えられる。
本研究では, 形状規則性の人間的表現, ユークリッド幾何学的概念, 自然画像のセマンティック階層の抽出に有効であることを示す。
論文 参考訳(メタデータ) (2024-05-29T18:01:58Z) - A Probabilistic Model Behind Self-Supervised Learning [53.64989127914936]
自己教師付き学習(SSL)では、アノテートラベルなしで補助的なタスクを通じて表現が学習される。
自己教師型学習のための生成潜在変数モデルを提案する。
対照的な方法を含む識別的SSLのいくつかのファミリーは、表現に匹敵する分布を誘導することを示した。
論文 参考訳(メタデータ) (2024-02-02T13:31:17Z) - Compositional Scene Modeling with Global Object-Centric Representations [44.43366905943199]
人間は、メモリ内の標準画像に基づいて閉塞された部分を完了させることで、たとえ閉塞物が存在するとしても、同じ物体を容易に識別することができる。
本稿では,オブジェクトの標準画像のグローバルな表現を,監督なしに推測する合成シーンモデリング手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T14:36:36Z) - DRG: Dual Relation Graph for Human-Object Interaction Detection [65.50707710054141]
人-物間相互作用(HOI)検出の課題に対処する。
既存の方法は、人間と物体の対の相互作用を独立に認識するか、複雑な外観に基づく共同推論を行う。
本稿では,抽象的空間意味表現を活用して,各対象対を記述し,二重関係グラフを用いてシーンの文脈情報を集約する。
論文 参考訳(メタデータ) (2020-08-26T17:59:40Z) - Global-Local Bidirectional Reasoning for Unsupervised Representation
Learning of 3D Point Clouds [109.0016923028653]
局所構造とグローバル形状の双方向推論による点雲表現を人間の監督なしに学習する。
本研究では, 実世界の3次元オブジェクト分類データセットにおいて, 教師なしモデルが最先端の教師付き手法を超越していることを示す。
論文 参考訳(メタデータ) (2020-03-29T08:26:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。