論文の概要: Second Guess: Detecting Uncertainty Through Abstention and Answer Stability in Small Language Models
- arxiv url: http://arxiv.org/abs/2605.25394v1
- Date: Mon, 25 May 2026 03:38:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.274447
- Title: Second Guess: Detecting Uncertainty Through Abstention and Answer Stability in Small Language Models
- Title(参考訳): 第二のガイダンス:小言語モデルにおける無視と解答安定性による不確かさの検出
- Authors: Ashwath Vaithinathan Aravindan, Mayank Kejriwal,
- Abstract要約: 大規模な言語モデルは、不確実な場合には控えるよりも、自信があるが誤った答えを生成することが多い。
マルチチョイス質問応答(MCQA)における抑止のための軽量かつパラメータフリーなプロンプト手法である_Second Guess_を提案する。
第2ギースは10.81%の複合リスク改善を達成している。
- 参考スコア(独自算出の注目度): 2.5782420501870296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models often generate confident but incorrect answers rather than abstaining when uncertain. This problem is particularly acute for small language models (SLMs), where computational constraints and autonomous operation amplify the need for reliable uncertainty detection. We propose _Second Guess_, a lightweight, parameter-free prompting technique for abstention in multiple-choice question answering (MCQA) that is well-suited for SLMs. Our key empirical insight is that models which truly know an answer will select it consistently, while uncertain models exhibit unstable behavior when an ``I don't know'' option is added. Evaluated on four open models (2B-8B parameters) and four benchmarks, Second Guess achieves the highest composite risk improvement of 10.81\%. Notably, it maintains an 8\% composite risk improvement on fine-tuned models where entropy-based methods degrade, and improves most for lower-performing models. All code and results required to reproduce this work is available in https://github.com/Mystic-Slice/second-guess
- Abstract(参考訳): 大規模な言語モデルは、不確実な場合には控えるよりも、自信があるが誤った答えを生成することが多い。
この問題は、計算の制約と自律的な操作が確実な不確実性検出の必要性を増幅する小言語モデル(SLM)にとって特に急激な問題である。
本稿では,SLM に適したマルチチョイス質問応答 (MCQA) において,抑止のための軽量かつパラメータフリーなプロンプト手法である _Second Guess_ を提案する。
私たちの重要な経験的洞察は、真に解答を知っているモデルは一貫して選択するが、不確実なモデルは ``I don't know'' オプションを追加すると不安定な振る舞いを示す。
4つのオープンモデル(2B-8Bパラメータ)と4つのベンチマークで評価され、Second Guessは10.81\%の最高の複合リスク改善を達成する。
特に、エントロピーに基づく手法が劣化する微調整モデルでは86%の複合リスク改善が維持され、低性能モデルでは最も改善されている。
この作業を再現するために必要なコードと結果は、https://github.com/Mystic-Slice/second-guessで確認できる。
関連論文リスト
- Robust Search with Uncertainty-Aware Value Models for Language Model Reasoning [31.973976155760397]
値モデル誘導探索はLLM生成のステアリングに有効であるが、堅牢性の欠如に悩まされている。
本研究では, 予測信頼性を定量化するために, 単一点値推定を値分布に置き換える不確実性認識値モデル (UVMs) と, 最適である確率に基づいて候補を選択するアルゴリズムであるグループトンプソンサンプリング (Group Thompson Sampling) の2つの主要な構成要素を持つ不確実性認識フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-16T15:10:30Z) - LoGU: Long-form Generation with Uncertainty Expressions [49.76417603761989]
不確実性を伴う長文生成(LoGU)の課題について紹介する。
不確実性抑制と不確実性誤認の2つの主要な課題を特定します。
当社のフレームワークでは,原子的クレームに基づく不確実性を改善するため,分割・分散戦略を採用している。
提案手法が精度を向上し,幻覚を低減し,応答の包括性を維持できることを示す。
論文 参考訳(メタデータ) (2024-10-18T09:15:35Z) - Uncertainty-aware Language Modeling for Selective Question Answering [107.47864420630923]
本稿では,不確実性を考慮したLLMを生成するLLM変換手法を提案する。
我々のアプローチはモデルとデータに依存しず、計算効率が高く、外部モデルやシステムに依存しない。
論文 参考訳(メタデータ) (2023-11-26T22:47:54Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。