論文の概要: Comparing the information content of probabilistic representation spaces
- arxiv url: http://arxiv.org/abs/2405.21042v3
- Date: Wed, 19 Feb 2025 01:10:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 13:56:01.494487
- Title: Comparing the information content of probabilistic representation spaces
- Title(参考訳): 確率的表現空間の情報内容の比較
- Authors: Kieran A. Murphy, Sam Dillavou, Dani S. Bassett,
- Abstract要約: 確率的表現空間はデータセットに関する情報を伝達し、トレーニングデータ、ネットワークアーキテクチャ、損失関数などの要因によって形成される。
一般確率表現空間を比較するための2つの情報理論尺度を提案する。
3つのケーススタディでこれらの尺度の有用性を実証する。
- 参考スコア(独自算出の注目度): 3.7277730514654555
- License:
- Abstract: Probabilistic representation spaces convey information about a dataset and are shaped by factors such as the training data, network architecture, and loss function. Comparing the information content of such spaces is crucial for understanding the learning process, yet most existing methods assume point-based representations, neglecting the distributional nature of probabilistic spaces. To address this gap, we propose two information-theoretic measures to compare general probabilistic representation spaces by extending classic methods to compare the information content of hard clustering assignments. Additionally, we introduce a lightweight method of estimation that is based on fingerprinting a representation space with a sample of the dataset, designed for scenarios where the communicated information is limited to a few bits. We demonstrate the utility of these measures in three case studies. First, in the context of unsupervised disentanglement, we identify recurring information fragments within individual latent dimensions of VAE and InfoGAN ensembles. Second, we compare the full latent spaces of models and reveal consistent information content across datasets and methods, despite variability during training. Finally, we leverage the differentiability of our measures to perform model fusion, synthesizing the information content of weak learners into a single, coherent representation. Across these applications, the direct comparison of information content offers a natural basis for characterizing the processing of information.
- Abstract(参考訳): 確率的表現空間はデータセットに関する情報を伝達し、トレーニングデータ、ネットワークアーキテクチャ、損失関数などの要因によって形成される。
このような空間の情報内容を比較することは学習過程を理解する上で重要であるが、既存のほとんどの手法は点ベースの表現を仮定し、確率空間の分布性を無視している。
このギャップに対処するために,従来の手法を拡張し,ハードクラスタリング代入の情報内容を比較することによって,一般的な確率的表現空間を比較するための2つの情報理論手法を提案する。
さらに,数ビットに制限されたシナリオ用に設計されたデータセットのサンプルを用いて表現空間をフィンガープリントすることに基づく,軽量な推定手法を提案する。
3つのケーススタディでこれらの尺度の有用性を実証する。
まず、教師なし不絡みの文脈において、VAEおよびInfoGANアンサンブルの個々の潜伏次元内の繰り返し情報断片を同定する。
第2に、トレーニング中の可変性にもかかわらず、モデルの全潜在空間を比較し、データセットやメソッド間で一貫性のある情報内容を明らかにする。
最後に,弱い学習者の情報内容を単一の一貫性のある表現に合成することで,モデルの融合を行うための尺度の微分可能性を活用する。
これらのアプリケーション全体にわたって、情報コンテンツの直接比較は、情報の処理を特徴付ける自然な基盤を提供する。
関連論文リスト
- Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - What is different between these datasets? [20.706111458944502]
同じ領域の2つのデータセットは異なる分布を示す可能性がある。
本稿では,データセットの比較を行うための解釈可能な手法の汎用的ツールボックスを提案する。
これらの手法は、動作可能で解釈可能な洞察を提供することによって既存の手法を補完する。
論文 参考訳(メタデータ) (2024-03-08T19:52:39Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - FUNCK: Information Funnels and Bottlenecks for Invariant Representation
Learning [7.804994311050265]
データから不変表現を学習すると主張する一連の関連する情報漏えいとボトルネック問題について検討する。
本稿では,この情報理論の目的である「側情報付き条件付きプライバシ・ファンネル」の新たな要素を提案する。
一般に難解な目的を考慮し、ニューラルネットワークによってパラメータ化された補正変分推論を用いて、抽出可能な近似を導出する。
論文 参考訳(メタデータ) (2022-11-02T19:37:55Z) - Variational Distillation for Multi-View Learning [104.17551354374821]
我々は,多視点表現学習における2つの重要な特徴を利用するために,様々な情報ボトルネックを設計する。
厳密な理論的保証の下で,本手法は,観察とセマンティックラベルの内在的相関の把握を可能にする。
論文 参考訳(メタデータ) (2022-06-20T03:09:46Z) - Discriminative Supervised Subspace Learning for Cross-modal Retrieval [16.035973055257642]
クロスモーダル検索のための識別型教師付き部分空間学習法(DS2L)を提案する。
具体的には、まず、各モダリティ内の意味構造を保存するために、共有セマンティックグラフを構築する。
次に,Hilbert-Schmidt Independence Criterion (HSIC)を導入し,特徴相似性とサンプルの意味相似性との相似性を維持する。
論文 参考訳(メタデータ) (2022-01-26T14:27:39Z) - Learning Conditional Invariance through Cycle Consistency [60.85059977904014]
本稿では,データセットの変動の有意義な要因と独立な要因を識別する新しい手法を提案する。
提案手法は,対象プロパティと残りの入力情報に対する2つの別個の潜在部分空間を含む。
我々は,より意味のある因子を同定し,よりスペーサーや解釈可能なモデルに導く合成および分子データについて実証する。
論文 参考訳(メタデータ) (2021-11-25T17:33:12Z) - Learning Bias-Invariant Representation by Cross-Sample Mutual
Information Minimization [77.8735802150511]
対象タスクが誤用したバイアス情報を除去するために,クロスサンプル対逆脱バイアス法(CSAD)を提案する。
相関測定は, 対向的偏り評価において重要な役割を担い, クロスサンプル型相互情報推定器によって行われる。
我々は,提案手法の最先端手法に対する利点を検証するために,公開データセットの徹底的な実験を行った。
論文 参考訳(メタデータ) (2021-08-11T21:17:02Z) - Integrating Auxiliary Information in Self-supervised Learning [94.11964997622435]
まず、補助情報がデータ構造に関する有用な情報をもたらす可能性があることを観察する。
補助情報に基づいてデータクラスタを構築する。
我々はCl-InfoNCEがデータクラスタリング情報を活用するためのより良いアプローチであることを示した。
論文 参考訳(メタデータ) (2021-06-05T11:01:15Z) - Contrastive analysis for scatter plot-based representations of
dimensionality reduction [0.0]
本稿では,マルチ次元データセットを探索し,クラスタの形成を解釈する手法を提案する。
また,属性がクラスタ形成にどのように影響するかを理解するために使用される統計変数間の関係を視覚的に解釈し,探索する二部グラフも導入する。
論文 参考訳(メタデータ) (2021-01-26T01:16:31Z) - Learning Discrete Structured Representations by Adversarially Maximizing
Mutual Information [39.87273353895564]
本研究では、構造化潜在変数と対象変数の相互情報を最大化することにより、ラベルのないデータから離散的構造化表現を学習する。
我々の重要な技術的貢献は、クロスエントロピー計算の実現可能性のみを前提として、相互情報を的確に見積もることができる敵の目的である。
文書ハッシュに本モデルを適用し,離散およびベクトル量子化変分オートエンコーダに基づいて,現在の最良ベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-04-08T13:31:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。