論文の概要: Modulating Cross-Modal Convergence with Single-Stimulus, Intra-Modal Dispersion
- arxiv url: http://arxiv.org/abs/2604.21836v1
- Date: Thu, 23 Apr 2026 16:27:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.763423
- Title: Modulating Cross-Modal Convergence with Single-Stimulus, Intra-Modal Dispersion
- Title(参考訳): 単一刺激, モード内分散によるクロスモーダル収束の変調
- Authors: Eghbal A. Hosseini, Brian Cheung, Evelina Fedorenko, Alex H. Williams,
- Abstract要約: 単一刺激レベルにおけるモーダル内表現収束を測定する手法を提案する。
このモード内分散は視覚モデルと言語モデルとのアライメントを強く調節することがわかった。
- 参考スコア(独自算出の注目度): 14.03787953022639
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural networks exhibit a remarkable degree of representational convergence across diverse architectures, training objectives, and even data modalities. This convergence is predictive of alignment with brain representation. A recent hypothesis suggests this arises from learning the underlying structure in the environment in similar ways. However, it is unclear how individual stimuli elicit convergent representations across networks. An image can be perceived in multiple ways and expressed differently using words. Here, we introduce a methodology based on the Generalized Procrustes Algorithm to measure intra-modal representational convergence at the single-stimulus level. We applied this to vision models with distinct training objectives, selecting stimuli based on their degree of alignment (intra-modal dispersion). Crucially, we found that this intra-modal dispersion strongly modulates alignment between vision and language models (cross-modal convergence). Specifically, stimuli with low intra-modal dispersion (high agreement among vision models) elicited significantly higher cross-modal alignment than those with high dispersion, by up to a factor of two (e.g., in pairings of DINOv2 with language models). This effect was robust to stimulus selection criteria and generalized across different pairings of vision and language models. Measuring convergence at the single-stimulus level provides a path toward understanding the sources of convergence and divergence across modalities, and between neural networks and human neural representations.
- Abstract(参考訳): ニューラルネットワークは、多様なアーキテクチャ、訓練対象、さらにはデータモダリティに対して、顕著な表現収束を示す。
この収束は、脳の表現との整合性を予測する。
最近の仮説では、同様の方法で環境の基盤構造を学習することによるものである。
しかし、個々の刺激がネットワーク間の収束表現をいかに引き起こすかは明らかでない。
画像は複数の方法で認識でき、単語を使って異なる表現をすることができる。
本稿では,単一刺激レベルにおけるモーダル内表現収束を測定するための一般化プロクリストスアルゴリズムに基づく手法を提案する。
本研究では,異なる訓練対象を持つ視覚モデルに適用し,そのアライメント度(イントラモーダル分散)に基づいて刺激を選択する。
重要なことに、このモード内分散は視覚と言語モデル間の整合性を強く調節する(クロスモーダル収束)。
特に,低モード内分散(視覚モデル間での高一致)の刺激は,高分散の刺激に比べて,最大2因子(例えば,DINOv2と言語モデルとのペアリング)で有意に高い反モーダルアライメントを誘導した。
この効果は刺激選択基準に頑健であり、視覚モデルと言語モデルの異なる組み合わせで一般化された。
単一刺激レベルで収束を測定することは、モーダル性、およびニューラルネットワークと人間の神経表現の間の収束と分散の源を理解するための道を提供する。
関連論文リスト
- Delving into Spectral Clustering with Vision-Language Representations [27.433418706301477]
本稿では,事前学習された視覚言語モデルにおけるクロスモーダルアライメントを利用したニューラルタンジェントカーネルスペクトルクラスタリングを提案する。
この定式化はクラスタ内の接続を増幅し,クラスタ間のスプリラスな接続を抑えることを示す。
我々の手法は、常に最先端の手法よりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2026-02-10T09:36:24Z) - Barycentric alignment for instance-level comparison of neural representations [2.1920579994942164]
我々は、多くのモデルにまたがる普遍的な埋め込み空間を構築するために、ニュアンス対称性を引用するバリ中心アライメントフレームワークを導入する。
視覚および言語モデルファミリ間での表現収束とばらつきを予測できる体系的な入力特性を同定する。
また、同一のバリ中心アライメントフレームワークを純粋に非モーダル視覚と言語モデルに適用し、共有空間へのポストホックアライメントが画像テキストの類似度スコアを得ることを示す。
論文 参考訳(メタデータ) (2026-02-09T21:49:44Z) - Dual-Stream Cross-Modal Representation Learning via Residual Semantic Decorrelation [5.272868130772015]
クロスモーダル表現は、しばしばモダリティ支配、冗長な情報結合、急激なクロスモーダル相関に悩まされる。
本稿では,Dual-Stream Residual Semantic Deorrelation Network (DSRSD-Net)を提案する。
論文 参考訳(メタデータ) (2025-12-08T14:01:16Z) - UniAlignment: Semantic Alignment for Unified Image Generation, Understanding, Manipulation and Perception [54.53657134205492]
UniAlignmentは単一の拡散変換器内での統一されたマルチモーダル生成フレームワークである。
固有モード意味アライメントとクロスモーダル意味アライメントの両方を組み込むことで、モデルのクロスモーダル一貫性と命令追従ロバスト性を高める。
本稿では、複雑なテキスト命令下でのマルチモーダルなセマンティック一貫性を評価するために設計された新しいベンチマークであるSemGen-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-28T09:11:30Z) - Vision-Language Semantic Aggregation Leveraging Foundation Model for Generalizable Medical Image Segmentation [5.597576681565333]
本稿では,期待最大化(EM)アグリゲーション機構とテキストガイド付きPixelデコーダを提案する。
後者は、ドメイン不変のテキスト知識を利用して、深い視覚的表現を効果的に導くことによって、意味的ギャップを埋めるように設計されている。
提案手法は,複数の領域一般化ベンチマークにおいて,既存のSOTA手法より一貫して優れている。
論文 参考訳(メタデータ) (2025-09-10T13:16:30Z) - Bridging Critical Gaps in Convergent Learning: How Representational Alignment Evolves Across Layers, Training, and Distribution Shifts [1.9458156037869137]
収束学習は、神経システムが同様の内部表現に到達する度合いである。
数十の視覚モデルと数千の層対比較にまたがる収束学習の大規模監査を行う。
発見は、表現の収束に対する理解において重要なギャップを埋め、神経科学とAIに影響を及ぼす。
論文 参考訳(メタデータ) (2025-02-26T00:04:24Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Mixed Graph Contrastive Network for Semi-Supervised Node Classification [63.924129159538076]
我々はMixed Graph Contrastive Network(MGCN)と呼ばれる新しいグラフコントラスト学習手法を提案する。
本研究では,非摂動増強戦略と相関還元機構により,潜伏埋め込みの識別能力を向上する。
これら2つの設定を組み合わせることで、識別表現学習のために、豊富なノードと稀に価値あるラベル付きノードの両方から、豊富な監視情報を抽出する。
論文 参考訳(メタデータ) (2022-06-06T14:26:34Z) - Cross-Modal Discrete Representation Learning [73.68393416984618]
本稿では,様々なモダリティにまたがるより細かい粒度を捉える表現を学習する自己教師型学習フレームワークを提案する。
我々のフレームワークは、異なるモダリティ間で共有されるベクトル量子化によって生成される離散化された埋め込み空間に依存している。
論文 参考訳(メタデータ) (2021-06-10T00:23:33Z) - Learning Relation Alignment for Calibrated Cross-modal Retrieval [52.760541762871505]
言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。
ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
論文 参考訳(メタデータ) (2021-05-28T14:25:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。