論文の概要: Inside-Out: Measuring Generalization in Vision Transformers Through Inner Workings
- arxiv url: http://arxiv.org/abs/2604.08192v1
- Date: Thu, 09 Apr 2026 12:44:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.922739
- Title: Inside-Out: Measuring Generalization in Vision Transformers Through Inner Workings
- Title(参考訳): インサイドアウト:内部作業による視覚変換器の一般化測定
- Authors: Yunxiang Peng, Mengmeng Ma, Ziyu Yao, Xi Peng,
- Abstract要約: 1)デプロイ前、ラベルのないターゲットデータに対して最適なモデルを選択する方法、(2)デプロイ後、分散シフト時のモデルパフォーマンスを監視する方法、の2つの実践シナリオに注目した。
我々は、一般化性能の予測指標として、モデルの内部構造、すなわち回路を用いる。
- 参考スコア(独自算出の注目度): 21.672670192853506
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reliable generalization metrics are fundamental to the evaluation of machine learning models. Especially in high-stakes applications where labeled target data are scarce, evaluation of models' generalization performance under distribution shift is a pressing need. We focus on two practical scenarios: (1) Before deployment, how to select the best model for unlabeled target data? (2) After deployment, how to monitor model performance under distribution shift? The central need in both cases is a reliable and label-free proxy metric. Yet existing proxy metrics, such as model confidence or accuracy-on-the-line, are often unreliable as they only assess model output while ignoring the internal mechanisms that produce them. We address this limitation by introducing a new perspective: using the inner workings of a model, i.e., circuits, as a predictive metric of generalization performance. Leveraging circuit discovery, we extract the causal interactions between internal representations as a circuit, from which we derive two metrics tailored to the two practical scenarios. (1) Before deployment, we introduce Dependency Depth Bias, which measures different models' generalization capability on target data. (2) After deployment, we propose Circuit Shift Score, which predicts a model's generalization under different distribution shifts. Across various tasks, both metrics demonstrate significantly improved correlation with generalization performance, outperforming existing proxies by an average of 13.4\% and 34.1\%, respectively. Our code is available at https://github.com/deep-real/GenCircuit.
- Abstract(参考訳): 信頼性の高い一般化メトリクスは、機械学習モデルの評価に不可欠である。
特にラベル付き対象データが不足している高スループットアプリケーションでは,分散シフト時のモデル一般化性能の評価が求められている。
1) デプロイ前に、ラベルなしのターゲットデータに対して最適なモデルを選択するには、どうすればよいか?
2)展開後、分散シフト時のモデルパフォーマンスの監視方法。
どちらのケースでも中心的なニーズは、信頼性とラベルなしのプロキシメトリックです。
しかし、モデル信頼性や精度・オン・ザ・ラインのような既存のプロキシメトリクスは、モデル出力のみを評価しながら、それらを生成する内部メカニズムを無視しているため、信頼性が低いことが多い。
本稿では,モデルの内部動作,すなわち回路を一般化性能の予測指標として用いるという,新たな視点を導入することで,この制限に対処する。
回路発見の活用により、内部表現間の因果相互作用を回路として抽出し、2つの実例に合わせた2つの指標を導出する。
1) 展開前に, 対象データに対する異なるモデルの一般化能力を計測する依存性深さバイアスを導入する。
2)展開後,異なる分布シフトの下でモデルの一般化を予測するCircuit Shift Scoreを提案する。
様々なタスクにおいて、両方の指標は一般化性能との相関を著しく改善し、それぞれ13.4\%と34.1\%で既存のプロキシを上回った。
私たちのコードはhttps://github.com/deep-real/GenCircuit.comで利用可能です。
関連論文リスト
- Confidence and Dispersity as Signals: Unsupervised Model Evaluation and Ranking [46.95596181965493]
本稿では,教師なしモデル評価とランキングのための統一的で実用的なフレームワークを提案する。
ハイブリッドメトリクスは、データセット中心およびモデル中心の評価設定の両方において、単一アスペクトメトリクスを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-10-03T12:48:11Z) - Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - Quantifying Uncertainty and Variability in Machine Learning: Confidence Intervals for Quantiles in Performance Metric Distributions [0.17265013728931003]
マシンラーニングモデルは、信頼性と堅牢性が重要であるアプリケーションで広く使用されている。
モデル評価は、しばしば、モデルパフォーマンスの固有の変数をキャプチャできないパフォーマンスメトリクスの単一ポイント推定に依存します。
この貢献は、そのような分布を分析するために量子と信頼区間を使うことを探求し、モデルの性能とその不確実性についてより完全な理解を提供する。
論文 参考訳(メタデータ) (2025-01-28T13:21:34Z) - Yesterday's News: Benchmarking Multi-Dimensional Out-of-Distribution Generalization of Misinformation Detection Models [16.581487607358238]
本稿では,誤情報モデルによるアウト・オブ・ディストリビューションの一般化能力を評価するためのベンチマークデータセットであるMissinfo-Generalを紹介する。
一般化のための重要な軸として、時間、イベント、トピック、出版者、政治的偏見、誤情報タイプを識別する。
このモデルがdesiderataをフェールするかを示すが、必ずしも分類基準から明らかではない。
論文 参考訳(メタデータ) (2024-10-12T09:46:36Z) - An Offline Metric for the Debiasedness of Click Models [52.25681483524383]
クリックモデルは、ユーザークリックから情報を抽出する一般的な方法である。
最近の研究は、コミュニティにおける現在の評価プラクティスが、良いパフォーマンスのクリックモデルが下流のタスクにうまく一般化することを保証できないことを示している。
クリックモデリングにおける偏りの概念を導入し,その測定基準を導出する。
論文 参考訳(メタデータ) (2023-04-19T10:59:34Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Evaluating Predictive Uncertainty and Robustness to Distributional Shift
Using Real World Data [0.0]
シフト天気予報データセットを用いて、一般的な回帰作業のためのメトリクスを提案する。
また,これらの指標を用いたベースライン手法の評価を行った。
論文 参考訳(メタデータ) (2021-11-08T17:32:10Z) - Estimating Generalization under Distribution Shifts via Domain-Invariant
Representations [75.74928159249225]
未知の真のターゲットラベルのプロキシとして、ドメイン不変の予測器のセットを使用します。
結果として生じるリスク見積の誤差は、プロキシモデルのターゲットリスクに依存する。
論文 参考訳(メタデータ) (2020-07-06T17:21:24Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。