論文の概要: ALSA: Anchors in Logit Space for Out-of-Distribution Accuracy Estimation
- arxiv url: http://arxiv.org/abs/2508.19613v1
- Date: Wed, 27 Aug 2025 06:46:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.527551
- Title: ALSA: Anchors in Logit Space for Out-of-Distribution Accuracy Estimation
- Title(参考訳): ALSA:アウト・オブ・ディストリビューションの精度評価のためのログスペースのアンカー
- Authors: Chenzhi Liu, Mahsa Baktashmotlagh, Yanran Tang, Zi Huang, Ruihong Qiu,
- Abstract要約: ALSA(Anchors in Logit Space for Accuracy Estimation)は,ロジット空間で直接操作することで,よりリッチな情報を保存する新しいフレームワークである。
幅広い分散シフトに対して、堅牢で正確なパフォーマンス推定を提供する。
特に、ALSAのかなりの分布シフト下での堅牢性は、信頼性のあるモデル評価のための実用的なツールとしての可能性を強調している。
- 参考スコア(独自算出の注目度): 37.69900450948528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Estimating model accuracy on unseen, unlabeled datasets is crucial for real-world machine learning applications, especially under distribution shifts that can degrade performance. Existing methods often rely on predicted class probabilities (softmax scores) or data similarity metrics. While softmax-based approaches benefit from representing predictions on the standard simplex, compressing logits into probabilities leads to information loss. Meanwhile, similarity-based methods can be computationally expensive and domain-specific, limiting their broader applicability. In this paper, we introduce ALSA (Anchors in Logit Space for Accuracy estimation), a novel framework that preserves richer information by operating directly in the logit space. Building on theoretical insights and empirical observations, we demonstrate that the aggregation and distribution of logits exhibit a strong correlation with the predictive performance of the model. To exploit this property, ALSA employs an anchor-based modeling strategy: multiple learnable anchors are initialized in logit space, each assigned an influence function that captures subtle variations in the logits. This allows ALSA to provide robust and accurate performance estimates across a wide range of distribution shifts. Extensive experiments on vision, language, and graph benchmarks demonstrate ALSA's superiority over both softmax- and similarity-based baselines. Notably, ALSA's robustness under significant distribution shifts highlights its potential as a practical tool for reliable model evaluation.
- Abstract(参考訳): 目に見えないラベルのないデータセットに対するモデル精度の推定は、実世界の機械学習アプリケーション、特にパフォーマンスを低下させる分散シフトの下では不可欠である。
既存の手法は予測されたクラスの確率(ソフトマックススコア)やデータ類似度メトリクスに依存することが多い。
ソフトマックスベースのアプローチは、標準的な単純な予測から恩恵を受けるが、ロジットを確率に圧縮すると情報を失う。
一方、類似性に基づく手法は計算コストが高く、ドメイン固有であり、適用性が制限される。
本稿では,ロジット空間内で直接操作することで,よりリッチな情報を保存する新しいフレームワークであるALSA(Anchors in Logit Space for Accuracy Estimation)を紹介する。
理論的な洞察と経験的観察に基づいて,ロジットの凝集と分布がモデルの予測性能と強い相関を示すことを示した。
複数の学習可能なアンカーはロジット空間で初期化され、それぞれがロジットの微妙なバリエーションをキャプチャする影響関数を割り当てる。
これにより、ALSAは幅広い分散シフトに対して堅牢で正確なパフォーマンス推定を提供することができる。
ビジョン、言語、グラフベンチマークに関する大規模な実験は、ALSAがソフトマックスベースと類似性ベースラインの両方よりも優れていることを示している。
特に、ALSAのかなりの分布シフト下での堅牢性は、信頼性のあるモデル評価のための実用的なツールとしての可能性を強調している。
関連論文リスト
- Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Balancing Fairness and Accuracy in Data-Restricted Binary Classification [14.439413517433891]
本稿では,4つの実践シナリオ下での精度と公平性のトレードオフをモデル化する枠組みを提案する。
3つのデータセットの実験では、トレードオフを定量化するためのツールとして提案されたフレームワークの有用性が示されている。
論文 参考訳(メタデータ) (2024-03-12T15:01:27Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - On the Efficacy of Generalization Error Prediction Scoring Functions [33.24980750651318]
一般化誤差予測器(GEP)は,サンプルレベルのスコアからデータセットレベルの誤差推定を導出することにより,未知分布のモデル性能を予測することを目的としている。
機構選択に依存しない一般的なスコアリング関数(自信,局所多様体の滑らかさ,モデル適合性)の有効性を厳密に研究する。
論文 参考訳(メタデータ) (2023-03-23T18:08:44Z) - Confident Sinkhorn Allocation for Pseudo-Labeling [40.883130133661304]
半教師付き学習は、ラベル付きデータへの機械学習の依存を減らす重要なツールである。
本稿では,疑似ラベル作成における不確実性の役割を理論的に研究し,CSA(Confident Sinkhorn Allocation)を提案する。
CSAは、信頼度の高いサンプルのみへの最適な輸送を通して、最高の擬似ラベル割り当てを特定する。
論文 参考訳(メタデータ) (2022-06-13T02:16:26Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。