論文の概要: The Silent Vote: Improving Zero-Shot LLM Reliability by Aggregating Semantic Neighborhoods
- arxiv url: http://arxiv.org/abs/2605.09739v1
- Date: Sun, 10 May 2026 20:22:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.398652
- Title: The Silent Vote: Improving Zero-Shot LLM Reliability by Aggregating Semantic Neighborhoods
- Title(参考訳): 無声投票:セマンティック近隣の集合によるゼロショットLDM信頼性の向上
- Authors: Sanket Badhe, Priyanka Tiwari, Deep Shah,
- Abstract要約: 対象ラベルを囲むセマンティック・エリアのスコアを集約することにより,損失情報を復元する推論時間層を提案する。
その結果, 予測誤差 (ECE) とブライアスコア (Brier Score) は, AUROC と Macro-F1 の区別性能を同時に向上した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large Language Models are increasingly used as zero-shot classifiers in complex reasoning tasks. However, standard constrained decoding suffers from a phenomenon we define as Renormalization Bias. When a model is restricted to a small set of target labels, the standard softmax operation discards the probability mass assigned to semantic synonyms in the original distribution. This loss of information, which we call the Silent Vote, results in artificial overconfidence and poor calibration. We propose Semantic Softmax, an inference-time layer that recovers this lost information by aggregating the scores of the semantic neighborhood surrounding each target label. We evaluate this approach on Qwen-3 and Phi-4-mini models using GoEmotions and Civil Comments datasets. Our results demonstrate consistent improvements across all evaluation metrics: Semantic Softmax substantially reduces Expected Calibration Error (ECE) and Brier Score, while simultaneously enhancing discriminative performance in terms of AUROC and Macro-F1. By accounting for linguistic nuances, our method provides a more calibrated and accurate alternative for zero-shot classification.
- Abstract(参考訳): 大規模言語モデルは、複雑な推論タスクにおいてゼロショット分類器として使われることが多い。
しかし、標準的な制約付き復号法は、再正規化バイアス(Renormalization Bias)と定義する現象に悩まされる。
モデルがターゲットラベルの小さなセットに制限されると、標準ソフトマックス演算は、元の分布のセマンティックシノニムに割り当てられた確率質量を破棄する。
この情報喪失は、私たちがSilent Voteと呼んでいる、人工的な過信とキャリブレーションの低下をもたらす。
本稿では,各ラベルを囲むセマンティックな近傍のスコアを集約することで,この失われた情報を復元するセマンティック・ソフトマックスを提案する。
GoEmotionsとCivil Commentsデータセットを用いたQwen-3およびPhi-4-miniモデルに対するこのアプローチの評価を行った。
Semantic Softmaxは期待校正誤差(ECE)とBrier Scoreを著しく低減し,同時にAUROCとMacro-F1の判別性能を向上する。
言語的ニュアンスを考慮することで、ゼロショット分類のより校正的で正確な代替手段を提供する。
関連論文リスト
- Provable Sparse Inversion and Token Relabel Enhanced One-shot Federated Learning with ViTs [77.42033827176806]
ワンショットフェデレートラーニング(One-Shot Federated Learning)は、単一のコミュニケーションラウンドでグローバルモデルを学ぶ中央サーバが、有望なパラダイムとして登場したものだ。
本稿では,合成画像の全パッチをフル活用してグローバルモデルをトレーニングする,新しいフェデレーションモデルインバージョンとトークンリラベルフレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-11T15:49:08Z) - CORE: Context-Robust Remasking for Diffusion Language Models [51.59514489363897]
我々は、推論時リビジョンのためのトレーニング不要フレームワークであるContext-Robust Remasking (CORE)を提案する。
静的トークンの確率を信頼するのではなく、COREは、ターゲットとなるマスク付きコンテキストの摂動に対する感受性を示すことによって、コンテキスト不安定なトークンを識別する。
LLaDA-8B-Baseでは、COREは推論とコードベンチマークの間で一貫した改善を行い、計算に適合したベースラインを上回り、MBPPを最大9.2%改善した。
論文 参考訳(メタデータ) (2026-02-04T00:12:30Z) - VocSim: A Training-free Benchmark for Zero-shot Content Identity in Single-source Audio [1.0791267046450075]
VocSimは、凍結埋め込みの固有の幾何学的アライメントを探索するトレーニング不要のベンチマークである。
VocSimは、人間のスピーチ、動物の発声、環境音にまたがる19のコーパスから125万のソースクリップを集約する。
論文 参考訳(メタデータ) (2025-12-10T22:13:12Z) - Universal Adversarial Suffixes Using Calibrated Gumbel-Softmax Relaxation [9.099589602551573]
我々は,任意の入力に付加されたユニバーサル逆接接尾辞について検討し,タスクやモデル間での精度を広く低減する。
提案手法は,Gumbel-Softmax 緩和を用いた微分可能な「ソフト」形式で接尾辞を学習し,推論のために識別する。
あるモデルで訓練された1つの接尾辞は、他のモデルに効果的に転送され、常に精度と精度の調整の両方を低下させる。
論文 参考訳(メタデータ) (2025-12-09T00:03:39Z) - SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - Dirichlet-Based Prediction Calibration for Learning with Noisy Labels [40.78497779769083]
雑音ラベルによる学習はディープニューラルネットワーク(DNN)の一般化性能を著しく損なう
既存のアプローチでは、損失補正やサンプル選択手法によってこの問題に対処している。
そこで我々は,textitDirichlet-based Prediction (DPC) 法を解法として提案する。
論文 参考訳(メタデータ) (2024-01-13T12:33:04Z) - Variational Classification [51.2541371924591]
我々は,変分オートエンコーダの訓練に用いるエビデンスローバウンド(ELBO)に類似した,モデルの訓練を目的とした変分目的を導出する。
軟質マックス層への入力を潜伏変数のサンプルとして扱うことで, 抽象化された視点から, 潜在的な矛盾が明らかとなった。
我々は、標準ソフトマックス層に見られる暗黙の仮定の代わりに、選択された潜在分布を誘導する。
論文 参考訳(メタデータ) (2023-05-17T17:47:19Z) - Self-Adaptive Label Augmentation for Semi-supervised Few-shot
Classification [121.63992191386502]
Few-shotの分類は、ラベル付きサンプルがわずかにあれば、新しいタスクをうまく一般化できるモデルを学ぶことを目的としている。
そこで本研究では,手動で定義した指標を用いて,ラベルのない各サンプルに適切なラベルを割り当てる半教師付き小ショット分類手法を提案する。
SALAの目新しいところは、タスク適応計量であり、エンドツーエンドの方法で異なるタスクに対するメトリックを適応的に学習することができる。
論文 参考訳(メタデータ) (2022-06-16T13:14:03Z) - Progressive Identification of True Labels for Partial-Label Learning [112.94467491335611]
部分ラベル学習(Partial-label Learning, PLL)は、典型的な弱教師付き学習問題であり、各トレーニングインスタンスには、真のラベルである候補ラベルのセットが設けられている。
既存のほとんどの手法は、特定の方法で解決しなければならない制約付き最適化として精巧に設計されており、計算複雑性をビッグデータにスケールアップするボトルネックにしている。
本稿では,モデルと最適化アルゴリズムの柔軟性を備えた分類器の新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。