論文の概要: Variability Need Not Imply Error: The Case of Adequate but Semantically Distinct Responses
- arxiv url: http://arxiv.org/abs/2412.15683v1
- Date: Fri, 20 Dec 2024 09:02:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:24:15.356597
- Title: Variability Need Not Imply Error: The Case of Adequate but Semantically Distinct Responses
- Title(参考訳): 可変性は必ずしも誤りを含まない:不適切な、しかし意味的に異なる応答の事例
- Authors: Evgenia Ilia, Wilker Aziz,
- Abstract要約: 不確実性定量化ツールは、モデルが不確実である場合の応答を拒否するために使用できます。
我々は、モデルがAdequate Responses (PROBAR)に割り当てる確率を推定する。
ProBARはアンビグニティ/オープンエンディエントネスの異なるプロンプトでセマンティックエントロピーを上回ります。
- 参考スコア(独自算出の注目度): 7.581259361859477
- License:
- Abstract: With the broader use of language models (LMs) comes the need to estimate their ability to respond reliably to prompts (e.g., are generated responses likely to be correct?). Uncertainty quantification tools (notions of confidence and entropy, i.a.) can be used to that end (e.g., to reject a response when the model is `uncertain'). For example, Kuhn et al. (semantic entropy; 2022b) regard semantic variation amongst sampled responses as evidence that the model `struggles' with the prompt and that the LM is likely to err. We argue that semantic variability need not imply error--this being especially intuitive in open-ended settings, where prompts elicit multiple adequate but semantically distinct responses. Hence, we propose to annotate sampled responses for their adequacy to the prompt (e.g., using a classifier) and estimate the Probability the model assigns to Adequate Responses (PROBAR), which we then regard as an indicator of the model's reliability at the instance level. We evaluate PROBAR as a measure of confidence in selective prediction with OPT models (in two QA datasets and in next-word prediction, for English) and find PROBAR to outperform semantic entropy across prompts with varying degrees of ambiguity/open-endedness.
- Abstract(参考訳): より広範な言語モデル(LM)の使用により、プロンプトに確実に応答する能力(例えば、生成された応答は正しいか?
不確かさ定量化ツール(信頼とエントロピーの表記、すなわち、モデルが「不確かさ」であるときに応答を拒否するために)はその目的に使うことができる。
例えば、Kuhn et al (semantic entropy; 2022b) は、サンプル応答のセマンティックな変動を、モデルがプロンプトと'struggles' を結び、LM が err になりそうであることを示す証拠と見なしている。
セマンティック変数は、特にオープンエンド環境では直感的であり、複数の適切な、セマンティックな応答を誘発する。
そこで,本研究では,サンプル応答のアノテートをインプロンプト(例えば,分類器)に適応し,モデルがアデケート応答(PROBAR)に割り当てる確率を推定し,モデルがインスタンスレベルで信頼性を示す指標とみなす。
我々は,OPTモデルを用いた選択予測の信頼性を尺度として評価し(2つのQAデータセットと2つの単語予測では英語),あいまいさ/開放性の異なるプロンプト間のセマンティックエントロピーより優れていることを見出した。
関連論文リスト
- Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Mitigating LLM Hallucinations via Conformal Abstention [70.83870602967625]
我々は,大言語モデルが一般ドメインでの応答をいつ無視すべきかを決定するための,原則化された手順を開発する。
我々は、幻覚率(エラー率)の厳密な理論的保証の恩恵を受けるため、共形予測手法を活用して、禁忌手順を開発する。
実験によって得られた共形禁忌法は, 種々の閉書, オープンドメイン生成質問応答データセットに, 幻覚率を確実に拘束する。
論文 参考訳(メタデータ) (2024-04-04T11:32:03Z) - Uncertainty-aware Language Modeling for Selective Question Answering [107.47864420630923]
本稿では,不確実性を考慮したLLMを生成するLLM変換手法を提案する。
我々のアプローチはモデルとデータに依存しず、計算効率が高く、外部モデルやシステムに依存しない。
論文 参考訳(メタデータ) (2023-11-26T22:47:54Z) - Self-Consistency of Large Language Models under Ambiguity [4.141513298907867]
本研究は,不特定の場合の自己整合性評価ベンチマークを示す。
あいまいな整数列補完タスクを用いて,OpenAIモデルスイート上で一連の動作実験を行う。
平均一貫性は67%から82%の範囲であり、モデルの一貫性がランダムであれば予測されるよりもはるかに高い。
論文 参考訳(メタデータ) (2023-10-20T11:57:56Z) - Conformal Language Modeling [61.94417935386489]
生成言語モデル(LM)の共形予測のための新しい手法を提案する。
標準共形予測は厳密で統計的に保証された予測セットを生成する。
我々は,オープンドメイン質問応答,テキスト要約,ラジオロジーレポート生成において,複数のタスクに対するアプローチの約束を実証する。
論文 参考訳(メタデータ) (2023-06-16T21:55:08Z) - A Mechanism for Sample-Efficient In-Context Learning for Sparse
Retrieval Tasks [29.764014766305174]
事前学習プロセスと下流タスクに対して,適切な仮定でトランスフォーマーモデルがICLを実行可能であることを示す。
本手法は, トランス機構を用いて実装可能であることを確認した。
論文 参考訳(メタデータ) (2023-05-26T15:49:43Z) - Realistic Conversational Question Answering with Answer Selection based
on Calibrated Confidence and Uncertainty Measurement [54.55643652781891]
対話型質問回答モデル(ConvQA)は,会話中に複数回発生した質問文と過去の質問文のペアを用いて質問に回答することを目的としている。
本稿では,会話履歴における不正確な回答を,ConvQAモデルから推定された信頼度と不確実性に基づいてフィルタリングすることを提案する。
我々は2つの標準ConvQAデータセット上で、回答選択に基づくリアルな会話質問回答モデルの有効性を検証する。
論文 参考訳(メタデータ) (2023-02-10T09:42:07Z) - Augmentation by Counterfactual Explanation -- Fixing an Overconfident
Classifier [11.233334009240947]
極めて正確だが過信的なモデルは、ヘルスケアや自動運転といった重要なアプリケーションへのデプロイには不適である。
本稿では,過度に信頼された分類器の修正に反事実的説明を適用することを提案する。
論文 参考訳(メタデータ) (2022-10-21T18:53:16Z) - Multivariate Probabilistic Regression with Natural Gradient Boosting [63.58097881421937]
多変量予測分布の条件パラメータを非パラメトリックにモデル化したNatural Gradient Boosting (NGBoost) 手法を提案する。
提案手法は頑健で, 広範囲なチューニングを伴わず, 推定対象分布に対してモジュール構造であり, 既存の手法と比較して競争力がある。
論文 参考訳(メタデータ) (2021-06-07T17:44:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。