論文の概要: Linking Robustness and Generalization: A k* Distribution Analysis of Concept Clustering in Latent Space for Vision Models
- arxiv url: http://arxiv.org/abs/2408.09065v1
- Date: Sat, 17 Aug 2024 01:43:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 22:56:40.558058
- Title: Linking Robustness and Generalization: A k* Distribution Analysis of Concept Clustering in Latent Space for Vision Models
- Title(参考訳): リンクロバスト性と一般化:視覚モデルのための潜在空間における概念クラスタリングのk*分布解析
- Authors: Shashank Kotyan, Pin-Yu Chen, Danilo Vasconcellos Vargas,
- Abstract要約: 本稿では,局所的近傍解析手法であるk*分布を用いて,個々の概念のレベルで学習された潜伏空間について検討する。
視覚モデルの潜在空間の全体的品質を評価するために、個々の概念を解釈するための歪度に基づく真および近似メトリクスを導入する。
- 参考スコア(独自算出の注目度): 56.89974470863207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most evaluations of vision models use indirect methods to assess latent space quality. These methods often involve adding extra layers to project the latent space into a new one. This projection makes it difficult to analyze and compare the original latent space. This article uses the k* Distribution, a local neighborhood analysis method, to examine the learned latent space at the level of individual concepts, which can be extended to examine the entire latent space. We introduce skewness-based true and approximate metrics for interpreting individual concepts to assess the overall quality of vision models' latent space. Our findings indicate that current vision models frequently fracture the distributions of individual concepts within the latent space. Nevertheless, as these models improve in generalization across multiple datasets, the degree of fracturing diminishes. A similar trend is observed in robust vision models, where increased robustness correlates with reduced fracturing. Ultimately, this approach enables a direct interpretation and comparison of the latent spaces of different vision models and reveals a relationship between a model's generalizability and robustness. Results show that as a model becomes more general and robust, it tends to learn features that result in better clustering of concepts. Project Website is available online at https://shashankkotyan.github.io/k-Distribution/
- Abstract(参考訳): 視覚モデルのほとんどの評価は、間接的手法を用いて遅延空間の品質を評価する。
これらのメソッドはしばしば、潜在空間を新しいものに投影するために余分なレイヤを追加する。
この射影により、元の潜在空間を解析して比較することが困難になる。
本稿では,局所近傍解析法であるk*分布を用いて,学習された潜在空間を個々の概念のレベルで調べる。
視覚モデルの潜在空間の全体的品質を評価するために、個々の概念を解釈するための歪度に基づく真および近似メトリクスを導入する。
以上の結果から,現在の視覚モデルが潜在空間内の個々の概念の分布を頻繁に破壊していることが示唆された。
しかしながら、これらのモデルが複数のデータセットにわたる一般化を改善するにつれて、フラクチャーの度合いは低下する。
同様に、ロバストな視覚モデルでは、ロバストさの増加はフラクチャーの減少と相関する。
最終的に、このアプローチは異なる視覚モデルの潜在空間の直接解釈と比較を可能にし、モデルの一般化可能性と堅牢性の関係を明らかにする。
その結果、モデルがより一般的で堅牢になるにつれて、概念のより優れたクラスタリングをもたらす特徴を学習する傾向が示される。
Project Webサイトはhttps://shashankkotyan.github.io/k-Distribution/で公開されている。
関連論文リスト
- Comparing Fairness of Generative Mobility Models [3.699135947901772]
本研究は、生成モビリティモデルの公平性を検証し、地理的領域にわたるモデルパフォーマンスにおいて、しばしば見落とされがちなエクイティの次元に対処する。
クラウドフローデータに基づいて構築された予測モデルは、都市構造や移動パターンを理解するのに有効である。
生成したトレースの有効性と公平性を測定することによって、公正性を評価するための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-07T06:01:12Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Visual Data Diagnosis and Debiasing with Concept Graphs [50.84781894621378]
視覚データセットにおける概念共起バイアスの診断と緩和のためのフレームワークであるConBiasを提案する。
このような不均衡を緩和し,下流タスクの性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-09-26T16:59:01Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。
以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文 参考訳(メタデータ) (2024-04-02T22:27:24Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - On the Transformation of Latent Space in Fine-Tuned NLP Models [21.364053591693175]
微調整NLPモデルにおける潜伏空間の進化について検討する。
階層的クラスタリングを用いて表現空間における潜在概念を発見する。
3つのモデルと3つの下流タスクで事前訓練されたモデルと微調整されたモデルを比較した。
論文 参考訳(メタデータ) (2022-10-23T10:59:19Z) - Diversity vs. Recognizability: Human-like generalization in one-shot
generative models [5.964436882344729]
サンプル認識可能性と多様性の2つの軸に沿った1ショット生成モデルを評価するための新しい枠組みを提案する。
まず、GANのようなモデルとVAEのようなモデルが多様性認識性空間の反対側にあることを示す。
対照的に、非絡み合いは、認識可能性の最大化に使用できるパラボラ曲線に沿ってモデルを輸送する。
論文 参考訳(メタデータ) (2022-05-20T13:17:08Z) - Unsupervised Learning of Global Factors in Deep Generative Models [6.362733059568703]
非i.i.dに基づく新しい深層生成モデルを提案する。
変分オートエンコーダ。
モデルがドメインアライメントを行い、相関関係を見つけ、異なるデータベース間で補間することを示す。
また、非自明な基礎構造を持つ観測群を区別するグローバル空間の能力についても研究する。
論文 参考訳(メタデータ) (2020-12-15T11:55:31Z) - Agglomerative Neural Networks for Multi-view Clustering [109.55325971050154]
本稿では,最適コンセンサスを近似する凝集分析法を提案する。
本稿では,制約付きラプラシアンランクに基づくANN(Agglomerative Neural Network)を用いて,マルチビューデータをクラスタリングする。
4つの一般的なデータセットに対する最先端のマルチビュークラスタリング手法に対する我々の評価は、ANNの有望なビュー・コンセンサス分析能力を示している。
論文 参考訳(メタデータ) (2020-05-12T05:39:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。