論文の概要: Back into Plato's Cave: Examining Cross-modal Representational Convergence at Scale
- arxiv url: http://arxiv.org/abs/2604.18572v1
- Date: Mon, 20 Apr 2026 17:56:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:53.036859
- Title: Back into Plato's Cave: Examining Cross-modal Representational Convergence at Scale
- Title(参考訳): プラトン洞窟への逆戻り - スケールにおけるクロスモーダル表現の収束性の検討-
- Authors: A. Sophia Koepke, Daniil Zverev, Shiry Ginosar, Alexei A. Efros,
- Abstract要約: プラトン表現仮説(Platonic Representation hypothesis)は、異なるモダリティで訓練されたニューラルネットワークが一致し、最終的に同じ現実の表現に向かって収束することを示唆している。
この仮説の実験的証拠は脆弱であり, 評価体制に大きく依存していることが示唆された。
- 参考スコア(独自算出の注目度): 40.31924374728614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Platonic Representation Hypothesis suggests that neural networks trained on different modalities (e.g., text and images) align and eventually converge toward the same representation of reality. If true, this has significant implications for whether modality choice matters at all. We show that the experimental evidence for this hypothesis is fragile and depends critically on the evaluation regime. Alignment is measured using mutual nearest neighbors on small datasets ($\approx$1K samples) and degrades substantially as the dataset is scaled to millions of samples. The alignment that remains between model representations reflects coarse semantic overlap rather than consistent fine-grained structure. Moreover, the evaluations in Huh et al. are done in a one-to-one image-caption setting, a constraint that breaks down in realistic many-to-many settings and further reduces alignment. We also find that the reported trend of stronger language models increasingly aligning with vision does not appear to hold for newer models. Overall, our findings suggest that the current evidence for cross-modal representational convergence is considerably weaker than subsequent works have taken it to be. Models trained on different modalities may learn equally rich representations of the world, just not the same one.
- Abstract(参考訳): プラトン表現仮説(Platonic Representation hypothesis)は、異なるモダリティ(例えばテキストや画像)で訓練されたニューラルネットワークが一致し、最終的に同じ現実の表現に向かって収束することを示唆している。
もしそうなら、これはモダリティの選択がまったく重要かどうかに重要な意味を持つ。
この仮説の実験的証拠は脆弱であり, 評価体制に大きく依存していることが示唆された。
アライメントは、小さなデータセット($1Kのサンプル)の隣人同士で測定され、データセットが数百万のサンプルにスケールされるにつれて、大幅に劣化する。
モデル表現の間に残るアライメントは、一貫したきめ細かい構造ではなく、粗いセマンティックな重なりを反映する。
さらに、Huh et alの評価は、1対1のイメージキャプション設定で行われ、現実的な多対多設定でブレークダウンし、アライメントをさらに削減する制約である。
また、より強力な言語モデルとビジョンとの整合性が高まっているという報告の傾向は、新しいモデルには当てはまらないようである。
総じて,現在のクロスモーダルな表現収束の証拠は,その後の研究よりもかなり弱いことが示唆された。
異なるモダリティで訓練されたモデルは、同じではなく、世界の均等に豊かな表現を学ぶことができる。
関連論文リスト
- Bridging Critical Gaps in Convergent Learning: How Representational Alignment Evolves Across Layers, Training, and Distribution Shifts [1.9458156037869137]
収束学習は、神経システムが同様の内部表現に到達する度合いである。
数十の視覚モデルと数千の層対比較にまたがる収束学習の大規模監査を行う。
発見は、表現の収束に対する理解において重要なギャップを埋め、神経科学とAIに影響を及ぼす。
論文 参考訳(メタデータ) (2025-02-26T00:04:24Z) - Improving Network Interpretability via Explanation Consistency Evaluation [56.14036428778861]
本稿では、より説明可能なアクティベーションヒートマップを取得し、同時にモデル性能を向上させるフレームワークを提案する。
具体的には、モデル学習において、トレーニングサンプルを適応的に重み付けするために、新しいメトリクス、すなわち説明整合性を導入する。
そこで,本フレームワークは,これらのトレーニングサンプルに深い注意を払ってモデル学習を促進する。
論文 参考訳(メタデータ) (2024-08-08T17:20:08Z) - The Platonic Representation Hypothesis [35.16414255187554]
AIモデル、特にディープネットワークにおける表現は収束していると我々は主張する。
ビジョンモデルと言語モデルが大きくなればなるほど、データポイント間の距離はますます似たようなものになる。
我々は、この収束が、プラトンの理想的現実の概念に似た、共有された統計的な現実モデルに向かっていると仮定する。
論文 参考訳(メタデータ) (2024-05-13T17:58:30Z) - Chaos is a Ladder: A New Theoretical Understanding of Contrastive
Learning via Augmentation Overlap [64.60460828425502]
コントラスト学習の下流性能に関する新たな保証を提案する。
我々の新しい理論は、攻撃的なデータ強化の下で、異なるクラス内サンプルのサポートがより重なり合うという知見に基づいている。
本稿では、下流の精度とよく一致した教師なしモデル選択距離ARCを提案する。
論文 参考訳(メタデータ) (2022-03-25T05:36:26Z) - Perceptual Score: What Data Modalities Does Your Model Perceive? [73.75255606437808]
モデルが入力特徴の異なる部分集合に依存する度合いを評価する指標である知覚スコアを導入する。
近年,視覚的質問応答に対するマルチモーダルモデルでは,前者よりも視覚的データを知覚しにくい傾向がみられた。
知覚スコアを使用することで、スコアをデータサブセットのコントリビューションに分解することで、モデルのバイアスを分析することもできる。
論文 参考訳(メタデータ) (2021-10-27T12:19:56Z) - Finding Geometric Models by Clustering in the Consensus Space [61.65661010039768]
本稿では,未知数の幾何学的モデル,例えばホモグラフィーを求めるアルゴリズムを提案する。
複数の幾何モデルを用いることで精度が向上するアプリケーションをいくつか提示する。
これには、複数の一般化されたホモグラフからのポーズ推定、高速移動物体の軌道推定が含まれる。
論文 参考訳(メタデータ) (2021-03-25T14:35:07Z) - A Sober Look at the Unsupervised Learning of Disentangled
Representations and their Evaluation [63.042651834453544]
モデルとデータの両方に帰納的バイアスを伴わずに,非教師なしの非教師付き表現学習は不可能であることを示す。
異なる手法は、対応する損失によって「強化」された特性を効果的に強制するが、よく見分けられたモデルは監督なしでは特定できないように見える。
以上の結果から,遠絡学習における今後の研究は,帰納的バイアスと(単純に)監督の役割を明確化すべきであることが示唆された。
論文 参考訳(メタデータ) (2020-10-27T10:17:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。