Fugu-MT 論文翻訳(概要): HyperPg -- Prototypical Gaussians on the Hypersphere for Interpretable Deep Learning

論文の概要: HyperPg -- Prototypical Gaussians on the Hypersphere for Interpretable Deep Learning

arxiv url: http://arxiv.org/abs/2410.08925v1
Date: Fri, 11 Oct 2024 15:50:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-30 21:06:06.609277
Title: HyperPg -- Prototypical Gaussians on the Hypersphere for Interpretable Deep Learning
Title（参考訳）: HyperPg -- 解釈可能なディープラーニングのためのハイパースフィア上の原型ガウス
Authors: Maximilian Xiling Li, Korbinian Franz Rudolf, Nils Blank, Rudolf Lioutikov,
Abstract要約: ProtoPNetは、トレーニング画像から既知のプロトタイプ部品を“見た目”で学習し、予測力とケースベースの推論の固有の解釈可能性を組み合わせる。この研究は、潜在空間の超球面上のガウス分布を利用した新しいプロトタイプ表現であるHyperPgを導入する。 CUB-200-2011とStanford Carsデータセットの実験では、HyperPgNetが他のプロトタイプ学習アーキテクチャより優れていることが示されている。
参考スコア（独自算出の注目度）: 2.0599237172837523
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Prototype Learning methods provide an interpretable alternative to black-box deep learning models. Approaches such as ProtoPNet learn, which part of a test image "look like" known prototypical parts from training images, combining predictive power with the inherent interpretability of case-based reasoning. However, existing approaches have two main drawbacks: A) They rely solely on deterministic similarity scores without statistical confidence. B) The prototypes are learned in a black-box manner without human input. This work introduces HyperPg, a new prototype representation leveraging Gaussian distributions on a hypersphere in latent space, with learnable mean and variance. HyperPg prototypes adapt to the spread of clusters in the latent space and output likelihood scores. The new architecture, HyperPgNet, leverages HyperPg to learn prototypes aligned with human concepts from pixel-level annotations. Consequently, each prototype represents a specific concept such as color, image texture, or part of the image subject. A concept extraction pipeline built on foundation models provides pixel-level annotations, significantly reducing human labeling effort. Experiments on CUB-200-2011 and Stanford Cars datasets demonstrate that HyperPgNet outperforms other prototype learning architectures while using fewer parameters and training steps. Additionally, the concept-aligned HyperPg prototypes are learned transparently, enhancing model interpretability.
Abstract（参考訳）: 原型学習法はブラックボックス深層学習モデルの解釈可能な代替手段を提供する。 ProtoPNetのようなアプローチは、テストイメージのどの部分が、トレーニングイメージから既知の原型部品を"見える"かを学び、予測力とケースベースの推論の固有の解釈可能性を組み合わせる。しかし、既存のアプローチには2つの主な欠点がある: (A) 統計的信頼性のない決定論的類似性スコアのみに依存する。 B)プロトタイプは人間の入力なしにブラックボックスで学習される。この研究は、潜在空間における超球面上のガウス分布を利用した新しいプロトタイプ表現であるHyperPgを導入し、平均と分散を学習可能とした。 HyperPgプロトタイプは潜在空間におけるクラスタの拡散に適応し、出力可能性スコアを出力する。新しいアーキテクチャであるHyperPgNetは、HyperPgを活用して、ピクセルレベルのアノテーションから人間のコンセプトに沿ったプロトタイプを学ぶ。その結果、各プロトタイプは、色、画像テクスチャ、または画像対象の一部といった特定の概念を表現している。基礎モデル上に構築された概念抽出パイプラインは、ピクセルレベルのアノテーションを提供し、人間のラベル付けの労力を大幅に削減する。 CUB-200-2011とStanford Carsデータセットの実験では、HyperPgNetは他のプロトタイプ学習アーキテクチャよりも優れており、パラメータやトレーニングステップが少ないことが示されている。さらに、概念に準拠したHyperPgプロトタイプは透過的に学習され、モデルの解釈性が向上する。

関連論文リスト

Divide, Conquer and Unite: Hierarchical Style-Recalibrated Prototype Alignment for Federated Medical Image Segmentation [66.82598255715696]
フェデレートラーニング(Federated Learning)は、複数の医療機関がデータを共有することなく、グローバルなモデルをトレーニングすることを可能にする。現在のアプローチは主に、重要なマルチレベルキューを見下ろす最終層機能に重点を置いている。我々は,ドメイン不変のコンテキスト型プロトタイプアライメントを介して特徴表現ギャップをブリッジするFedBCSを提案する。
論文参考訳（メタデータ） (2025-11-14T04:15:34Z)
Few to Big: Prototype Expansion Network via Diffusion Learner for Point Cloud Few-shot Semantic Segmentation [12.971351926107289]
Prototype Expansion Network (PENet) は、2つのアノテートされた特徴源から大容量のプロトタイプを構築するフレームワークである。 PENetは、様々ないくつかのショット設定で最先端のメソッドを著しく上回っている。
論文参考訳（メタデータ） (2025-09-16T09:29:46Z)
Probabilistic Prototype Calibration of Vision-Language Models for Generalized Few-shot Semantic Segmentation [75.18058114915327]
一般化されたFew-Shot Semanticnative(GFSS)は、いくつかの注釈付き例だけでセグメンテーションモデルを新しいクラスに拡張することを目的としている。プリトレーニング済みCLIPのマルチモーダルプロトタイプ上での確率的プロトタイプ校正フレームワークであるFewCLIPを提案する。 FewCLIPはGFSSとクラスインクリメンタルセッティングの両方で最先端のアプローチを著しく上回っている。
論文参考訳（メタデータ） (2025-06-28T18:36:22Z)
A Step towards Interpretable Multimodal AI Models with MultiFIX [0.0]
MultiFIXは、解釈可能性駆動型マルチモーダルデータ融合パイプラインである。明確に異なるモダリティから特徴を区別し、それらを組み合わせて最終的な予測を行う。特徴抽出と予測モデリングのための複数のトレーニング戦略を用いて,MultiFIXの使用について検討する。
論文参考訳（メタデータ） (2025-05-16T13:54:29Z)
GAProtoNet: A Multi-head Graph Attention-based Prototypical Network for Interpretable Text Classification [1.170190320889319]
GAProtoNetは、新しいホワイトボックスマルチヘッドグラフアテンションベースのプロトタイプネットワークである。提案手法は,元のブラックボックスLMの精度を犠牲にすることなく,優れた結果が得られる。プロトタイプクラスタのケーススタディと可視化は,LMを用いて構築したブラックボックスモデルの決定を効率的に説明できることを示す。
論文参考訳（メタデータ） (2024-09-20T08:15:17Z)
LC-Protonets: Multi-Label Few-Shot Learning for World Music Audio Tagging [65.72891334156706]
ラベル結合型プロトタイプネットワーク(LC-Protonets)を導入し,複数ラベルの複数ショット分類の問題に対処する。 LC-Protonetsは、限られたトレーニング項目に存在するラベルのパワーセットから、ラベルの組み合わせごとに1つのプロトタイプを生成する。本手法は,様々な文化をカバーし,現代音楽と伝統音楽の両方を含む,多様な音楽データセットにまたがる自動音声タグ付けに適用する。
論文参考訳（メタデータ） (2024-09-17T15:13:07Z)
InfoDisent: Explainability of Image Classification Models by Information Disentanglement [10.89767277352967]
本稿では,情報ボトルネックの原理に基づく説明可能性のハイブリッドアプローチであるInfoDisentを紹介する。本稿では,各種データセットを対象とした計算実験とユーザスタディを通じてInfoDisentの有効性を示す。
論文参考訳（メタデータ） (2024-09-16T14:39:15Z)
Multi-Scale Grouped Prototypes for Interpretable Semantic Segmentation [7.372346036256517]
意味的セグメンテーションを解釈可能なものにするための、有望なアプローチとして、プロトタイプ的な部分学習が登場している。本稿では,多スケール画像表現を利用した意味的セグメンテーションの解釈手法を提案する。 Pascal VOC,Cityscapes,ADE20Kで行った実験により,提案手法はモデルの疎結合性を高め,既存のプロトタイプ手法よりも解釈可能性を高め,非解釈可能なモデルとの性能ギャップを狭めることを示した。
論文参考訳（メタデータ） (2024-09-14T17:52:59Z)
Predefined Prototypes for Intra-Class Separation and Disentanglement [10.005120138175206]
原型学習は、クラスの埋め込みがクラスタ化される点(プロトタイプと呼ぶ)があるという考えに基づいている。我々は、トレーニングパイプラインを簡素化し、異なる利点をもたらす、人間の特定基準に従ってプロトタイプを事前定義することを提案する。
論文参考訳（メタデータ） (2024-06-23T15:52:23Z)
Automatic Discovery of Visual Circuits [66.99553804855931]
本稿では,視覚モデルにおける視覚的概念の認識の基盤となる計算グラフのサブグラフを抽出するスケーラブルな手法について検討する。提案手法は, モデル出力に因果的に影響を及ぼす回路を抽出し, これらの回路を編集することで, 敵攻撃から大きな事前学習モデルを守ることができることがわかった。
論文参考訳（メタデータ） (2024-04-22T17:00:57Z)
FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文参考訳（メタデータ） (2024-03-29T10:38:25Z)
Unicom: Universal and Compact Representation Learning for Image Retrieval [65.96296089560421]
大規模LAION400Mを,CLIPモデルにより抽出された共同テキストと視覚的特徴に基づいて,100万の擬似クラスにクラスタリングする。このような矛盾を緩和するために、我々は、マージンベースのソフトマックス損失を構築するために、ランダムにクラス間の部分的なプロトタイプを選択する。提案手法は,複数のベンチマークにおいて,教師なし,教師なしの画像検索手法よりも優れていた。
論文参考訳（メタデータ） (2023-04-12T14:25:52Z)
A Closer Look at Few-shot Classification Again [68.44963578735877]
トレーニングフェーズと適応フェーズで構成されている。トレーニングアルゴリズムと適応アルゴリズムが完全に絡み合っていることを実証的に証明する。各フェーズのメタアナリシスは、いくつかの興味深い洞察を示し、いくつかのショット分類の重要な側面をよりよく理解するのに役立ちます。
論文参考訳（メタデータ） (2023-01-28T16:42:05Z)
Multimodal Prototype-Enhanced Network for Few-Shot Action Recognition [40.329190454146996]
MultimOdal PRototype-ENhanced Network (MORN)は、ラベルテキストの意味情報をマルチモーダル情報として利用してプロトタイプを強化する。我々は4つの一般的な数発のアクション認識データセットについて広範な実験を行った。
論文参考訳（メタデータ） (2022-12-09T14:24:39Z)
Sketch-Guided Text-to-Image Diffusion Models [57.12095262189362]
本稿では,事前訓練されたテキスト-画像拡散モデルを示す普遍的なアプローチを提案する。本手法では,タスク専用のモデルや専用エンコーダをトレーニングする必要はない。我々は、スケッチ・ツー・イメージの翻訳タスクに特に焦点をあて、画像を生成する堅牢で表現力のある方法を明らかにする。
論文参考訳（メタデータ） (2022-11-24T18:45:32Z)
Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文参考訳（メタデータ） (2022-10-07T17:56:53Z)
Rethinking Semantic Segmentation: A Prototype View [126.59244185849838]
学習不可能なプロトタイプをベースとした非パラメトリックセマンティックセマンティックセマンティクスモデルを提案する。我々のフレームワークは、いくつかのデータセットに対して魅力的な結果をもたらす。この作業が、現在のデファクトセマンティックセグメンテーションモデル設計を再考することを期待しています。
論文参考訳（メタデータ） (2022-03-28T21:15:32Z)
Interpretable Image Classification with Differentiable Prototypes Assignment [7.660883761395447]
クラスが共有するプロトタイプのプールを備えた解釈可能な画像分類モデルであるProtoPoolを紹介する。プロトタイプを特定のクラスに完全に微分可能な割り当てを導入することで得られる。我々は,CUB-200-2011とStanford Carsのデータセットにおいて,ProtoPoolが最先端の精度を得ることを示す。
論文参考訳（メタデータ） (2021-12-06T10:03:32Z)
Dual Prototypical Contrastive Learning for Few-shot Semantic Segmentation [55.339405417090084]
本稿では,FSSタスクに適合する2つの特徴的コントラスト学習手法を提案する。第一の考え方は、プロトタイプの特徴空間におけるクラス内距離を減少させながら、クラス間距離を増やすことで、プロトタイプをより差別的にすることである。提案手法は,PASCAL-5iおよびCOCO-20iデータセット上で,最先端のFSS手法よりも優れていることを示す。
論文参考訳（メタデータ） (2021-11-09T08:14:50Z)
Hyperbolic Busemann Learning with Ideal Prototypes [14.525985704735055]
本研究では,任意のデータの表現学習のための双曲型ブセマン学習を提案する。理想のプロトタイプに対して近似性を計算するために、罰則を付したブセマン損失を導入する。実験により,本手法は,近年の超球面・双曲型プロトタイプよりも高い精度で,分類信頼性の自然な解釈を提供することを示した。
論文参考訳（メタデータ） (2021-06-28T08:36:59Z)
On the Transferability of Adversarial Attacksagainst Neural Text Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文参考訳（メタデータ） (2020-11-17T10:45:05Z)
Prototypical Contrastive Learning of Unsupervised Representations [171.3046900127166]
原型コントラスト学習(Prototypeal Contrastive Learning, PCL)は、教師なし表現学習法である。 PCLは暗黙的にデータのセマンティック構造を学習された埋め込み空間にエンコードする。 PCLは、複数のベンチマークで最先端のインスタンスワイド・コントラスト学習法より優れている。
論文参考訳（メタデータ） (2020-05-11T09:53:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。