論文の概要: Barycentric alignment for instance-level comparison of neural representations
- arxiv url: http://arxiv.org/abs/2602.09225v1
- Date: Mon, 09 Feb 2026 21:49:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.260482
- Title: Barycentric alignment for instance-level comparison of neural representations
- Title(参考訳): 神経表現のインスタンスレベルの比較のためのバリー中心アライメント
- Authors: Shreya Saha, Zoe Wanying He, Meenakshi Khosla,
- Abstract要約: 我々は、多くのモデルにまたがる普遍的な埋め込み空間を構築するために、ニュアンス対称性を引用するバリ中心アライメントフレームワークを導入する。
視覚および言語モデルファミリ間での表現収束とばらつきを予測できる体系的な入力特性を同定する。
また、同一のバリ中心アライメントフレームワークを純粋に非モーダル視覚と言語モデルに適用し、共有空間へのポストホックアライメントが画像テキストの類似度スコアを得ることを示す。
- 参考スコア(独自算出の注目度): 2.1920579994942164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Comparing representations across neural networks is challenging because representations admit symmetries, such as arbitrary reordering of units or rotations of activation space, that obscure underlying equivalence between models. We introduce a barycentric alignment framework that quotients out these nuisance symmetries to construct a universal embedding space across many models. Unlike existing similarity measures, which summarize relationships over entire stimulus sets, this framework enables similarity to be defined at the level of individual stimuli, revealing inputs that elicit convergent versus divergent representations across models. Using this instance-level notion of similarity, we identify systematic input properties that predict representational convergence versus divergence across vision and language model families. We also construct universal embedding spaces for brain representations across individuals and cortical regions, enabling instance-level comparison of representational agreement across stages of the human visual hierarchy. Finally, we apply the same barycentric alignment framework to purely unimodal vision and language models and find that post-hoc alignment into a shared space yields image text similarity scores that closely track human cross-modal judgments and approach the performance of contrastively trained vision-language models. This strikingly suggests that independently learned representations already share sufficient geometric structure for human-aligned cross-modal comparison. Together, these results show that resolving representational similarity at the level of individual stimuli reveals phenomena that cannot be detected by set-level comparison metrics.
- Abstract(参考訳): ニューラルネットワークにおける表現の比較は、単位の任意の並べ替えやアクティベーション空間の回転など、モデル間の不明確な等価性のような対称性を持つため、難しい。
多くのモデルにまたがる普遍的な埋め込み空間を構築するために、これらのニュアンス対称性を引用するバリ中心アライメントフレームワークを導入する。
刺激集合全体の関係を要約する既存の類似度測度とは異なり、この枠組みは類似度を個々の刺激のレベルで定義することができ、モデル全体の収束と発散表現を引き出す入力を明らかにする。
このインスタンスレベルの類似性の概念を用いて、視覚モデルと言語モデルファミリ間の差異に対して表現収束を予測できる体系的な入力特性を同定する。
また、人体と皮質領域にまたがる脳表現のための普遍的な埋め込み空間を構築し、人間の視覚階層の段階における表現的合意のインスタンスレベルの比較を可能にした。
最後に、同一のバリ中心アライメントフレームワークを純粋に非モーダル視覚と言語モデルに適用し、共有空間へのポストホックアライメントが画像テキスト類似度スコアを生成し、人間の横断的判断を密に追跡し、対照的に訓練された視覚言語モデルの性能にアプローチする。
このことは、独立に学習された表現が、人間の整合したクロスモーダル比較に十分な幾何学的構造をすでに持っていることを示唆している。
これらの結果から,個々の刺激レベルにおける表現的類似性の解消は,セットレベルの比較指標では検出できない現象を呈することが明らかとなった。
関連論文リスト
- Representations in vision and language converge in a shared, multidimensional space of perceived similarities [0.0]
視覚的および言語的類似性判定は行動レベルに収束することを示す。
また、自然のシーン画像から誘発されるfMRI脳反応のネットワークについても予測する。
これらの結果は、人間の視覚的および言語的類似性判断は、共有的、モダリティに依存しない表現構造に基礎を置いていることを示している。
論文 参考訳(メタデータ) (2025-07-29T14:42:31Z) - Evaluating Representational Similarity Measures from the Lens of Functional Correspondence [3.1883014716361635]
神経科学と人工知能(AI)はどちらも、高次元のニューラルネットワークの解釈という課題に直面している。
表象比較が広く使われているにもかかわらず、重要な疑問が残る: どの指標がこれらの比較に最も適しているのか?
論文 参考訳(メタデータ) (2024-11-21T23:53:58Z) - Objective drives the consistency of representational similarity across datasets [19.99817888941361]
本稿では,モデル間の表現的類似度が,表現を構成するために使用される刺激の集合によってどのように変化するかを測定するための体系的手法を提案する。
自己教師付き視覚モデルは、相対的なペアの類似性が、あるデータセットから別のデータセットへより良く一般化する表現を学ぶ。
我々の研究は、データセット間のモデル表現の類似性を分析し、それらの類似性とタスクの振る舞いの違いを関連付けるためのフレームワークを提供する。
論文 参考訳(メタデータ) (2024-11-08T13:35:45Z) - Bayesian Unsupervised Disentanglement of Anatomy and Geometry for Deep Groupwise Image Registration [59.062085785106234]
本稿では,マルチモーダル群画像登録のための一般ベイズ学習フレームワークを提案する。
本稿では,潜在変数の推論手順を実現するために,新しい階層的変分自動符号化アーキテクチャを提案する。
心臓、脳、腹部の医療画像から4つの異なるデータセットを含む,提案された枠組みを検証する実験を行った。
論文 参考訳(メタデータ) (2024-01-04T08:46:39Z) - Counting Like Human: Anthropoid Crowd Counting on Modeling the
Similarity of Objects [92.80955339180119]
メインストリームの群衆計数法は 密度マップを補強して 計数結果を得るために統合する。
これに触発された我々は,合理的かつ人為的な集団カウントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-02T07:00:53Z) - Attributable Visual Similarity Learning [90.69718495533144]
本稿では、画像間のより正確で説明可能な類似度測定のための帰属的視覚類似度学習(AVSL)フレームワークを提案する。
人間の意味的類似性認知に動機づけられた2つの画像とグラフとの類似性を表現するために,一般化された類似性学習パラダイムを提案する。
CUB-200-2011、Cars196、Stanford Online Productsデータセットの実験は、既存の深い類似性学習方法よりも大幅に改善されたことを示している。
論文 参考訳(メタデータ) (2022-03-28T17:35:31Z) - Image Synthesis via Semantic Composition [74.68191130898805]
本稿では,その意味的レイアウトに基づいて現実的なイメージを合成する新しい手法を提案する。
類似した外観を持つ物体に対して、類似した表現を共有するという仮説が立てられている。
本手法は, 空間的変化と関連表現の両方を生じる, 外観相関による領域間の依存関係を確立する。
論文 参考訳(メタデータ) (2021-09-15T02:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。