論文の概要: Bridging Domain Expertise and Generalization for Performance Estimation
- arxiv url: http://arxiv.org/abs/2606.06335v1
- Date: Thu, 04 Jun 2026 16:10:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.937146
- Title: Bridging Domain Expertise and Generalization for Performance Estimation
- Title(参考訳): ブリッジングドメインエキスパートとパフォーマンス評価のための一般化
- Authors: Shuxuan Li, Zhilin Zhao, Quyu Kong, Wei-Shi Zheng,
- Abstract要約: 分散シフトによる性能評価は、トレーニングデータとは異なるラベル付きテストセット上でモデルがどのように振る舞うかを予測することを目的としている。
既存のアプローチは、分布がシフトするとバイアスが増幅される与えられたモデルの出力にのみ依存する。
本研究では,より信頼性の高い基底トラスラベルのサロゲートを構築するために,融合参照アライメント予測(FRAP)を提案する。
- 参考スコア(独自算出の注目度): 44.139948614374106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Performance estimation under distribution shift aims to predict how a model behaves on an unlabeled test set whose distribution differs from the training data, a scenario that requires reliable indicators that can faithfully reflect model behavior without ground-truth labels. Existing approaches rely solely on the outputs of the given model whose biases are amplified once the distribution shifts, weakening the correlation with the true performance. Motivated by this limitation, we propose Fused Reference Alignment Prediction (FRAP), which leverages the complementary strengths of an external foundation model and the base model to construct a more reliable surrogate of the ground-truth labels. FRAP aligns the prediction distribution of the foundation model with that of the base model by applying temperature-scaled calibration that minimizes their divergence. The aligned predictions are fused through confidence-based weighting into a refined reference distribution that integrates robustness from the foundation model and domain-specific expertise from the base model, and performance estimation is obtained by measuring how closely the base model predictions agree with this reference. Extensive experiments across diverse datasets and architectures show that FRAP provides consistent and substantial improvements over representative performance-estimation methods under distribution shift.
- Abstract(参考訳): 分散シフトによる性能評価は, モデルがトレーニングデータと異なるラベル付きテストセット上でどのように振る舞うかを予測することを目的としている。
既存のアプローチは、分布がシフトするとバイアスが増幅される与えられたモデルの出力にのみ依存し、真の性能との相関を弱める。
この制限により,外部基盤モデルとベースモデルの相補的な強みを活用して,より信頼性の高い接地トラスラベルのサロゲートを構築するFused Reference Alignment Prediction (FRAP)を提案する。
FRAPは温度スケールのキャリブレーションを適用し,基礎モデルの予測分布と基礎モデルの予測分布を一致させる。
整列予測は、信頼度に基づく重み付けにより、基礎モデルからの堅牢性と基礎モデルからのドメイン固有の専門知識を統合した洗練された参照分布に融合し、基礎モデル予測がこの基準にどの程度近いかを測定することにより、性能推定を得る。
多様なデータセットやアーキテクチャにわたる大規模な実験により、FRAPは分散シフト下での代表的なパフォーマンス推定方法よりも一貫性があり、実質的な改善を提供することが示された。
関連論文リスト
- Joint Model and Data Sparsification via the Marginal Likelihood [53.29070892356214]
本稿では,個々の特徴とサンプルの相違点を同時学習し,同時にモデルとデータスペーシングを実現することを提案する。
このモデルとデータの対称的なプルーニングは、共役を保存する自然な拡張を提供する。
多様な回帰タスクにわたる経験的結果は、共同ARDアプローチがスパースモデルとロバスト予測モデルの両方を一貫して生成することを確認した。
論文 参考訳(メタデータ) (2026-05-28T13:26:53Z) - On Predicting the Post-training Potential of Pre-trained LLMs [60.07459271263409]
本稿では,ポストトレーニング前のベースモデルの性能予測という,ポストトレーニング後の潜在能力を予測するための新しいタスクを紹介する。
本稿では,応答判別を活用することで,ベースモデルの生成ギャップを回避できる統一フレームワークであるRuDEを提案する。
実験では、トレーニング後のパフォーマンスと90%以上の相関を示す。
論文 参考訳(メタデータ) (2026-05-12T11:33:49Z) - Beyond the Mean: Modelling Annotation Distributions in Continuous Affect Prediction [3.3187704612685267]
ベータ分布を用いたアノテーションのコンセンサスをモデル化する分散対応フレームワークを提案する。
モデルでは、単一の影響値を予測する代わりに、アノテーション分布の平均と標準偏差を推定する。
その結果、このモデルは感情知覚の中心的な傾向だけでなく、アノテータ応答における変動性、非対称性、不確実性も捉えている。
論文 参考訳(メタデータ) (2026-04-08T15:26:56Z) - STAR : Bridging Statistical and Agentic Reasoning for Large Model Performance Prediction [78.0692157478247]
本稿では,知識駆動型エージェント推論を用いて,データ駆動型静的予測を橋渡しするフレームワークSTARを提案する。
STARはスコアベースとランクベースの両方の基準線を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-12T16:30:07Z) - Nonparametric Data Attribution for Diffusion Models [57.820618036556084]
生成モデルのデータ属性は、個々のトレーニング例がモデル出力に与える影響を定量化する。
生成画像とトレーニング画像のパッチレベルの類似性によって影響を測定する非パラメトリック属性法を提案する。
論文 参考訳(メタデータ) (2025-10-16T03:37:16Z) - Prior Distribution and Model Confidence [0.0]
本稿では、再学習を必要とせずに、未知のデータに対するモデル予測の信頼性を理解するための枠組みを提案する。
本手法は,埋め込み空間におけるトレーニング分布からの距離に基づいて,低信頼度予測をフィルタリングする。
提案手法はモデルに依存しない一般化可能であり,コンピュータビジョン以外の応用の可能性がある。
論文 参考訳(メタデータ) (2025-09-05T20:17:26Z) - On conditional diffusion models for PDE simulations [53.01911265639582]
スパース観測の予測と同化のためのスコアベース拡散モデルについて検討した。
本稿では,予測性能を大幅に向上させる自動回帰サンプリング手法を提案する。
また,条件付きスコアベースモデルに対する新たなトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-10-21T18:31:04Z) - Quantifying Distribution Shifts and Uncertainties for Enhanced Model Robustness in Machine Learning Applications [0.0]
本研究では,合成データを用いたモデル適応と一般化について検討する。
我々は、データ類似性を評価するために、Kullback-Leiblerの発散、Jensen-Shannon距離、Mahalanobis距離などの量的尺度を用いる。
本研究は,マハラノビス距離などの統計指標を用いて,モデル予測が低誤差の「補間体制」内にあるか,あるいは高誤差の「補間体制」が分布変化とモデル不確実性を評価するための補完的手法を提供することを示唆している。
論文 参考訳(メタデータ) (2024-05-03T10:05:31Z) - Enhancing Robustness of Foundation Model Representations under
Provenance-related Distribution Shifts [8.298173603769063]
分布シフト下における基礎モデルに基づくモデルの安定性について検討する。
我々は,多施設データセットの文脈に現れる分布シフトの形式である,証明によるコンバウンディングに焦点をあてる。
その結果, 基礎モデルでは, コンバウンド・バイ・プロビデンス関係の分布シフトに対して, ある程度の頑健性を示すが, 調整により改善できることがわかった。
論文 参考訳(メタデータ) (2023-12-09T02:02:45Z) - Guide the Learner: Controlling Product of Experts Debiasing Method Based
on Token Attribution Similarities [17.082695183953486]
一般的な回避策は、二次バイアスモデルに基づいてトレーニング例を再重み付けすることで、堅牢なモデルをトレーニングすることである。
ここでは、バイアスドモデルが機能をショートカットする、という前提がある。
本稿では,主要モデルと偏りのあるモデル属性スコアの類似性を,プロダクト・オブ・エキスパートズ・ロス関数に組み込んだ微調整戦略を提案する。
論文 参考訳(メタデータ) (2023-02-06T15:21:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。