論文の概要: Who Guards the Guardians? The Challenges of Evaluating Identifiability of Learned Representations
- arxiv url: http://arxiv.org/abs/2602.24278v1
- Date: Fri, 27 Feb 2026 18:50:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.57245
- Title: Who Guards the Guardians? The Challenges of Evaluating Identifiability of Learned Representations
- Title(参考訳): ガーディアンを誰が守るか : 学習表現の不確かさ評価の課題
- Authors: Shruti Joshi, Théo Saulus, Wieland Brendel, Philippe Brouillard, Dhanya Sridhar, Patrik Reizinger,
- Abstract要約: データ生成プロセス(DGP)とエンコーダの両方に関する仮定を暗黙的に符号化していることを示す。
これらの仮定に違反すると、メトリクスは誤って特定され、体系的な偽陽性と偽陰性を生成する。
本稿では,DGP仮定をエンコーダ幾何から分離した分類法を導入し,既存のメトリクスの妥当性ドメインを特徴付けるとともに,再現性のあるストレステストと比較のための評価スイートをリリースする。
- 参考スコア(独自算出の注目度): 25.62598569130843
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identifiability in representation learning is commonly evaluated using standard metrics (e.g., MCC, DCI, R^2) on synthetic benchmarks with known ground-truth factors. These metrics are assumed to reflect recovery up to the equivalence class guaranteed by identifiability theory. We show that this assumption holds only under specific structural conditions: each metric implicitly encodes assumptions about both the data-generating process (DGP) and the encoder. When these assumptions are violated, metrics become misspecified and can produce systematic false positives and false negatives. Such failures occur both within classical identifiability regimes and in post-hoc settings where identifiability is most needed. We introduce a taxonomy separating DGP assumptions from encoder geometry, use it to characterise the validity domains of existing metrics, and release an evaluation suite for reproducible stress testing and comparison.
- Abstract(参考訳): 表現学習における不確かさは、既知の基底構造因子を持つ合成ベンチマークにおける標準指標(例えば、MCC、DCI、R^2)を用いて、一般的に評価される。
これらの指標は、同一性理論によって保証される同値類への回復を反映していると仮定される。
データ生成プロセス(DGP)とエンコーダの両方に関する仮定を暗黙的に符号化する。
これらの仮定に違反すると、メトリクスは誤って特定され、体系的な偽陽性と偽陰性を生成する。
このような障害は、古典的な識別可能性体制と、識別可能性が最も必要となるポストホックな設定の両方で発生する。
本稿では,DGP仮定をエンコーダ幾何から分離した分類法を導入し,既存のメトリクスの妥当性ドメインを特徴付け,再現性のあるストレステストと比較のための評価スイートをリリースする。
関連論文リスト
- The Emergence of Lab-Driven Alignment Signatures: A Psychometric Framework for Auditing Latent Bias and Compounding Risk in Generative AI [0.0]
本稿では,不確実性の下での潜在特性推定を定量化する新しい監査フレームワークを提案する。
この研究は最適化バイアス、Sycophancy、Status-Quo Legitimizationを含む9つの次元にわたる主要なモデルを監査している。
論文 参考訳(メタデータ) (2026-02-19T06:56:01Z) - Partial Identification under Missing Data Using Weak Shadow Variables from Pretrained Models [19.367626631086214]
ユーザフィードバックによる平均結果などの人口量の推定は,プラットフォーム評価や社会科学に不可欠である。
既存のアプローチは一般に、実際には利用できないかもしれない強いパラメトリックな仮定や分岐補助変数に依存している。
本研究では,一対の線形プログラムを解くことにより,推定値のシャープな境界を求める部分同定フレームワークを開発する。
論文 参考訳(メタデータ) (2026-02-17T22:18:27Z) - SCORE: A Semantic Evaluation Framework for Generative Document Parsing [2.5101597298392098]
マルチモーダル生成文書解析システムは意味論的に正しいが構造的に異なる出力を生成する。
従来のメトリクス-CER, WER, IoU, TEDS-misclassized such diversity as error, penalizing valid interpretations and obscuring system behavior。
SCORE, (i) 調整した編集距離を頑健な内容の忠実度と統合する解釈非依存のフレームワーク, (ii) トークンレベルの診断で幻覚と排便を区別する, (iii) 空間的寛容とセマンティックアライメントによるテーブル評価, (iv) 階層対応の整合性チェックを紹介する。
論文 参考訳(メタデータ) (2025-09-16T16:06:19Z) - Performance Estimation in Binary Classification Using Calibrated Confidence [0.5399800035598186]
混乱行列を用いて定義された任意の二項分類基準を推定できる新しい手法CBPEを提案する。
CBPEは強い理論的保証と有効な信頼区間を持つ推定値を生成する。
論文 参考訳(メタデータ) (2025-05-08T14:34:44Z) - SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。
提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。
次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文 参考訳(メタデータ) (2025-03-05T09:37:05Z) - Causal Fair Metric: Bridging Causality, Individual Fairness, and
Adversarial Robustness [7.246701762489971]
モデル内の脆弱性の特定や、類似した個人を公平に扱うことを目的とした個々の公正性に使用される対向的摂動は、どちらも同等の入力データインスタンスを生成するためのメトリクスに依存している。
このような共同メトリクスを定義する以前の試みは、データや構造因果モデルに関する一般的な仮定を欠くことが多く、反事実的近接を反映できなかった。
本稿では, 因果的属性と保護された因果的摂動を含む因果的構造に基づいて定式化された因果的公正度について紹介する。
論文 参考訳(メタデータ) (2023-10-30T09:53:42Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Parametric Classification for Generalized Category Discovery: A Baseline
Study [70.73212959385387]
Generalized Category Discovery (GCD)は、ラベル付きサンプルから学習した知識を用いて、ラベルなしデータセットで新しいカテゴリを発見することを目的としている。
パラメトリック分類器の故障を調査し,高品質な監視が可能であった場合の過去の設計選択の有効性を検証し,信頼性の低い疑似ラベルを重要課題として同定する。
エントロピー正規化の利点を生かし、複数のGCDベンチマークにおける最先端性能を実現し、未知のクラス数に対して強いロバスト性を示す、単純で効果的なパラメトリック分類法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:47:11Z) - Learning Hidden Markov Models When the Locations of Missing Observations
are Unknown [54.40592050737724]
本研究では、未知の観測位置を持つデータからHMMを学習する際の一般的な問題について考察する。
我々は、下層の鎖の構造に関する仮定を一切必要としない再構成アルゴリズムを提供する。
適切な仕様の下では、プロセスのダイナミクスを再構築でき、また、見当たらない観測位置が分かっていたとしても、その有効性を示す。
論文 参考訳(メタデータ) (2022-03-12T22:40:43Z) - Self-Certifying Classification by Linearized Deep Assignment [65.0100925582087]
そこで我々は,PAC-Bayesリスク認定パラダイム内で,グラフ上のメトリックデータを分類するための新しい深層予測器のクラスを提案する。
PAC-Bayesの最近の文献とデータに依存した先行研究に基づいて、この手法は仮説空間上の後続分布の学習を可能にする。
論文 参考訳(メタデータ) (2022-01-26T19:59:14Z) - Posthoc Verification and the Fallibility of the Ground Truth [10.427125361534966]
我々は,エンティティリンク(EL)タスクにおいて,系統的なポストホック検証実験を行う。
プレアノテーション評価と比較して,最先端ELモデルはポストホック評価法により極めて良好に動作した。
驚くべきことに、ELモデルからの予測は、基礎的な真実よりも類似または高い検証率を持っていた。
論文 参考訳(メタデータ) (2021-06-02T17:57:09Z) - Certified Robustness to Label-Flipping Attacks via Randomized Smoothing [105.91827623768724]
機械学習アルゴリズムは、データ中毒攻撃の影響を受けやすい。
任意の関数に対するランダム化スムージングの統一的なビューを示す。
本稿では,一般的なデータ中毒攻撃に対して,ポイントワイズで確実に堅牢な分類器を構築するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2020-02-07T21:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。