論文の概要: The Platonic Representation Hypothesis
- arxiv url: http://arxiv.org/abs/2405.07987v3
- Date: Tue, 23 Jul 2024 01:42:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 12:19:26.407818
- Title: The Platonic Representation Hypothesis
- Title(参考訳): プラトン表現仮説
- Authors: Minyoung Huh, Brian Cheung, Tongzhou Wang, Phillip Isola,
- Abstract要約: AIモデル、特にディープネットワークにおける表現は収束していると我々は主張する。
ビジョンモデルと言語モデルが大きくなればなるほど、データポイント間の距離はますます似たようなものになる。
我々は、この収束が、プラトンの理想的現実の概念に似た、共有された統計的な現実モデルに向かっていると仮定する。
- 参考スコア(独自算出の注目度): 35.16414255187554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We argue that representations in AI models, particularly deep networks, are converging. First, we survey many examples of convergence in the literature: over time and across multiple domains, the ways by which different neural networks represent data are becoming more aligned. Next, we demonstrate convergence across data modalities: as vision models and language models get larger, they measure distance between datapoints in a more and more alike way. We hypothesize that this convergence is driving toward a shared statistical model of reality, akin to Plato's concept of an ideal reality. We term such a representation the platonic representation and discuss several possible selective pressures toward it. Finally, we discuss the implications of these trends, their limitations, and counterexamples to our analysis.
- Abstract(参考訳): AIモデル、特にディープネットワークにおける表現は収束していると我々は主張する。
まず、時間とともに複数のドメインにわたって、異なるニューラルネットワークがデータを表現する方法が整合してきているという、文献における収束の多くの例を調査します。
次に、データモダリティ間の収束を実証する。ビジョンモデルと言語モデルが大きくなるにつれて、データポイント間の距離を、より似たような方法で測定する。
我々は、この収束が、プラトンの理想的現実の概念に似た、共有された統計的な現実モデルに向かっていると仮定する。
このような表現をプラトニック表現と呼び、それに対するいくつかの選択的な圧力について論じる。
最後に、これらの傾向、その限界、分析に対する反例について論じる。
関連論文リスト
- Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - A Generalized Model for Multidimensional Intransitivity [26.127246746317958]
本稿では,各プレイヤーのd-次元表現(d>1)とデータセット固有の距離空間を共同で学習する確率モデルを提案する。
提案手法は,予測精度において,競合する手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-09-28T11:48:34Z) - On the Origins of Linear Representations in Large Language Models [51.88404605700344]
我々は,次のトークン予測の概念力学を定式化するために,単純な潜在変数モデルを導入する。
実験により、潜在変数モデルと一致するデータから学習すると線形表現が現れることが示された。
また、LLaMA-2大言語モデルを用いて、理論のいくつかの予測を検証した。
論文 参考訳(メタデータ) (2024-03-06T17:17:36Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Experimental Observations of the Topology of Convolutional Neural
Network Activations [2.4235626091331737]
トポロジカル・データ解析は、複雑な構造のコンパクトでノイズ・ロバストな表現を提供する。
ディープニューラルネットワーク(DNN)は、モデルアーキテクチャによって定義された一連の変換に関連する数百万のパラメータを学習する。
本稿では,画像分類に使用される畳み込みニューラルネットワークの解釈可能性に関する知見を得る目的で,TDAの最先端技術を適用した。
論文 参考訳(メタデータ) (2022-12-01T02:05:44Z) - Geometric and Topological Inference for Deep Representations of Complex
Networks [13.173307471333619]
我々は、トポロジと表現の幾何学を強調する統計のクラスを提示する。
モデル選択に使用する場合の感度と特異性の観点から,これらの統計値を評価する。
これらの新しい手法により、脳やコンピューター科学者は、脳やモデルによって学習された動的表現変換を可視化することができる。
論文 参考訳(メタデータ) (2022-03-10T17:14:14Z) - Mind the Gap: Understanding the Modality Gap in Multi-modal Contrastive
Representation Learning [35.25854322376364]
CLIPのようなマルチモーダルモデルにおいて、データモダリティは、その共有表現に腕の長さに埋め込まれていることが示される。
対照的に、学習は、損失関数の温度パラメータの影響を受け、特定の距離で異なるモードを分離する。
実験により, モダリティギャップ距離の変化は, 下流のゼロショット分類性能と公平性を改善する上で大きな影響を与えることが示された。
論文 参考訳(メタデータ) (2022-03-03T22:53:54Z) - Representation Topology Divergence: A Method for Comparing Neural
Network Representations [10.74105109486386]
そこで我々は,Top Representationology Divergence (RTD, Top Representationology Divergence)を導入する。
実験の結果,提案したRTDはデータ表現類似性の直感的な評価と一致し,そのトポロジ的構造に敏感であることがわかった。
論文 参考訳(メタデータ) (2021-12-31T21:08:56Z) - Perceptual Score: What Data Modalities Does Your Model Perceive? [73.75255606437808]
モデルが入力特徴の異なる部分集合に依存する度合いを評価する指標である知覚スコアを導入する。
近年,視覚的質問応答に対するマルチモーダルモデルでは,前者よりも視覚的データを知覚しにくい傾向がみられた。
知覚スコアを使用することで、スコアをデータサブセットのコントリビューションに分解することで、モデルのバイアスを分析することもできる。
論文 参考訳(メタデータ) (2021-10-27T12:19:56Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。