論文の概要: Comparing the information content of probabilistic representation spaces
- arxiv url: http://arxiv.org/abs/2405.21042v2
- Date: Mon, 21 Oct 2024 17:50:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:11:40.443028
- Title: Comparing the information content of probabilistic representation spaces
- Title(参考訳): 確率的表現空間の情報内容の比較
- Authors: Kieran A. Murphy, Sam Dillavou, Dani S. Bassett,
- Abstract要約: 確率的表現空間は、データセットに関する情報を伝達し、トレーニング損失やネットワークアーキテクチャなどの要因の影響を理解するために、そのような空間の情報内容を比較する。
ここでは、ポイントベースの比較尺度に基づいて構築する代わりに、ハードクラスタリングに関する文献から古典的な手法に基づいて構築する。
本稿では,データセットのサンプルを用いて表現空間をフィンガープリントする手法を提案する。
- 参考スコア(独自算出の注目度): 3.7277730514654555
- License:
- Abstract: Probabilistic representation spaces convey information about a dataset, and to understand the effects of factors such as training loss and network architecture, we seek to compare the information content of such spaces. However, most existing methods to compare representation spaces assume representations are points, and neglect the distributional nature of probabilistic representations. Here, instead of building upon point-based measures of comparison, we build upon classic methods from literature on hard clustering. We generalize two information-theoretic methods of comparing hard clustering assignments to be applicable to general probabilistic representation spaces. We then propose a practical method of estimation that is based on fingerprinting a representation space with a sample of the dataset and is applicable when the communicated information is only a handful of bits. With unsupervised disentanglement as a motivating problem, we find information fragments that are repeatedly contained in individual latent dimensions in VAE and InfoGAN ensembles. Then, by comparing the full latent spaces of models, we find highly consistent information content across datasets, methods, and hyperparameters, even though there is often a point during training with substantial variety across repeat runs. Finally, we leverage the differentiability of the proposed method and perform model fusion by synthesizing the information content of multiple weak learners, each incapable of representing the global structure of a dataset. Across the case studies, the direct comparison of information content provides a natural basis for understanding the processing of information.
- Abstract(参考訳): 確率的表現空間は、データセットに関する情報を伝達し、トレーニング損失やネットワークアーキテクチャなどの要因の影響を理解するために、そのような空間の情報内容を比較する。
しかし、表現空間を比較する既存の方法のほとんどは、表現が点であると仮定し、確率的表現の分布の性質を無視する。
ここでは、ポイントベースの比較尺度に基づいて構築する代わりに、ハードクラスタリングに関する文献から古典的な手法に基づいて構築する。
本稿では,ハードクラスタリングの割り当てを比較するための2つの情報理論的手法を一般化し,一般化確率表現空間に適用する。
次に、データセットのサンプルを用いて表現空間をフィンガープリントし、通信された情報がほんの一握りのビットである場合に適用可能な、実用的な推定法を提案する。
教師なしのゆがみをモチベーション問題とすることで,VAEやInfoGANのアンサンブルにおいて,個々の潜伏次元に繰り返し含まれる情報断片が見つかる。
そして、モデルの完全な潜在空間を比較することで、繰り返し実行中にかなりの多様性を持つトレーニング中にポイントがあるにもかかわらず、データセット、メソッド、ハイパーパラメータ間で高度に一貫性のある情報コンテンツを見つけます。
最後に,提案手法の微分可能性を活用し,複数の弱い学習者の情報内容を合成することでモデル融合を行う。
ケーススタディ全体を通して、情報内容の直接比較は、情報の処理を理解するための自然な基盤を提供する。
関連論文リスト
- Learning Representations without Compositional Assumptions [79.12273403390311]
本稿では,特徴集合をグラフノードとして表現し,それらの関係を学習可能なエッジとして表現することで,特徴集合の依存関係を学習するデータ駆動型アプローチを提案する。
また,複数のビューから情報を動的に集約するために,より小さな潜在グラフを学習する新しい階層グラフオートエンコーダLEGATOを導入する。
論文 参考訳(メタデータ) (2023-05-31T10:36:10Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Inv-SENnet: Invariant Self Expression Network for clustering under
biased data [17.25929452126843]
本研究では,各サブ空間におけるデータポイントのクラスタ化を学習しながら,不要な属性(バイアス)を共同で除去する新しいフレームワークを提案する。
合成および実世界のデータセットに対する実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2022-11-13T01:19:06Z) - Leachable Component Clustering [10.377914682543903]
本研究では,非完全データのクラスタリングに対する新たなアプローチとして,リーチ可能なコンポーネントクラスタリングを提案する。
提案手法はベイズアライメントを用いてデータ計算を処理し,理論上失われたパターンを収集する。
いくつかの人工不完全データセットの実験により、提案手法は、他の最先端アルゴリズムと比較して優れた性能を示すことができることを示した。
論文 参考訳(メタデータ) (2022-08-28T13:13:17Z) - Leveraging Ensembles and Self-Supervised Learning for Fully-Unsupervised
Person Re-Identification and Text Authorship Attribution [77.85461690214551]
完全ラベル付きデータからの学習は、Person Re-IdentificationやText Authorship Attributionなどのマルチメディアフォレスト問題において困難である。
近年の自己教師型学習法は,基礎となるクラスに意味的差異が有る場合に,完全ラベル付きデータを扱う際に有効であることが示されている。
本研究では,異なるクラスからのサンプルが顕著に多様性を持っていない場合でも,ラベルのないデータから学習できるようにすることにより,個人再認識とテキストオーサシップの属性に対処する戦略を提案する。
論文 参考訳(メタデータ) (2022-02-07T13:08:11Z) - Discriminative Supervised Subspace Learning for Cross-modal Retrieval [16.035973055257642]
クロスモーダル検索のための識別型教師付き部分空間学習法(DS2L)を提案する。
具体的には、まず、各モダリティ内の意味構造を保存するために、共有セマンティックグラフを構築する。
次に,Hilbert-Schmidt Independence Criterion (HSIC)を導入し,特徴相似性とサンプルの意味相似性との相似性を維持する。
論文 参考訳(メタデータ) (2022-01-26T14:27:39Z) - Learning Debiased and Disentangled Representations for Semantic
Segmentation [52.35766945827972]
セマンティックセグメンテーションのためのモデルに依存しない訓練手法を提案する。
各トレーニングイテレーションで特定のクラス情報をランダムに除去することにより、クラス間の機能依存を効果的に削減する。
提案手法で訓練したモデルは,複数のセマンティックセグメンテーションベンチマークにおいて強い結果を示す。
論文 参考訳(メタデータ) (2021-10-31T16:15:09Z) - Integrating Auxiliary Information in Self-supervised Learning [94.11964997622435]
まず、補助情報がデータ構造に関する有用な情報をもたらす可能性があることを観察する。
補助情報に基づいてデータクラスタを構築する。
我々はCl-InfoNCEがデータクラスタリング情報を活用するためのより良いアプローチであることを示した。
論文 参考訳(メタデータ) (2021-06-05T11:01:15Z) - Contrastive analysis for scatter plot-based representations of
dimensionality reduction [0.0]
本稿では,マルチ次元データセットを探索し,クラスタの形成を解釈する手法を提案する。
また,属性がクラスタ形成にどのように影響するかを理解するために使用される統計変数間の関係を視覚的に解釈し,探索する二部グラフも導入する。
論文 参考訳(メタデータ) (2021-01-26T01:16:31Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z) - Learning Unbiased Representations via Mutual Information Backpropagation [36.383338079229695]
特に、モデルによって学習された場合、データのいくつかの属性(バイアス)が一般化特性を著しく損なう可能性がある場合に直面します。
本稿では,学習した表現とデータ属性の相互情報を同時に推定し,最小化する,新しいエンドツーエンド最適化手法を提案する。
論文 参考訳(メタデータ) (2020-03-13T18:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。