論文の概要: Is That Your Final Answer? Test-Time Scaling Improves Selective Question Answering
- arxiv url: http://arxiv.org/abs/2502.13962v1
- Date: Wed, 19 Feb 2025 18:58:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 14:00:05.425549
- Title: Is That Your Final Answer? Test-Time Scaling Improves Selective Question Answering
- Title(参考訳): 最終回答か? テストタイムのスケーリングは、選択的な質問回答を改善する
- Authors: William Jurayj, Jeffrey Cheng, Benjamin Van Durme,
- Abstract要約: 推論時における計算予算の増加は、モデルがより正確な質問に答えるのに役立つことを示す。
次に,非ゼロレベルの応答リスクの設定を考慮し,評価中のゼロリスク応答の現在のパラダイムを拡張した。
- 参考スコア(独自算出の注目度): 33.2921120857455
- License:
- Abstract: Scaling the test-time compute of large language models has demonstrated impressive performance on reasoning benchmarks. However, existing evaluations of test-time scaling make the strong assumption that a reasoning system should always give an answer to any question provided. This overlooks concerns about whether a model is confident in its answer, and whether it is appropriate to always provide a response. To address these concerns, we extract confidence scores during reasoning for thresholding model responses. We find that increasing compute budget at inference time not only helps models answer more questions correctly, but also increases confidence in correct responses. We then extend the current paradigm of zero-risk responses during evaluation by considering settings with non-zero levels of response risk, and suggest a recipe for reporting evaluations under these settings.
- Abstract(参考訳): 大規模言語モデルのテスト時間計算のスケールは、推論ベンチマークで顕著なパフォーマンスを示している。
しかし、既存のテストタイムスケーリングの評価では、推論システムは提供された質問に対して常に答えを与えるべきだという強い仮定がなされている。
これは、モデルがその回答に自信を持っているかどうか、そして、常に応答を提供するのが適切かどうかに関する懸念を過小評価する。
これらの問題に対処するため、モデル応答のしきい値に対する推論中に信頼度を抽出する。
推論時に計算予算が増加することは、モデルがより多くの質問に正しく答えるだけでなく、正しい回答に対する自信を高めるのにも役立ちます。
次に、非ゼロレベルの応答リスクの設定を考慮し、評価中のゼロリスク応答の現在のパラダイムを拡張し、これらの設定下での評価を報告するためのレシピを提案する。
関連論文リスト
- Variability Need Not Imply Error: The Case of Adequate but Semantically Distinct Responses [7.581259361859477]
不確実性定量化ツールは、モデルが不確実である場合の応答を拒否するために使用できます。
我々は、モデルがAdequate Responses (PROBAR)に割り当てる確率を推定する。
ProBARはアンビグニティ/オープンエンディエントネスの異なるプロンプトでセマンティックエントロピーを上回ります。
論文 参考訳(メタデータ) (2024-12-20T09:02:26Z) - DiverseAgentEntropy: Quantifying Black-Box LLM Uncertainty through Diverse Perspectives and Multi-Agent Interaction [53.803276766404494]
モデルの不確実性を評価する既存の手法は、元のクエリに対する自己整合性を評価することで、必ずしも真の不確実性を把握するわけではない。
マルチエージェントインタラクションを用いたモデルの不確実性評価のための新しい手法であるDiverseAgentEntropyを提案する。
提案手法は,モデルの信頼性をより正確に予測し,さらに幻覚を検知し,他の自己整合性に基づく手法よりも優れる。
論文 参考訳(メタデータ) (2024-12-12T18:52:40Z) - Contextualized Evaluations: Taking the Guesswork Out of Language Model Evaluations [85.81295563405433]
言語モデルユーザーは、しばしば仕様を欠いたクエリを発行するが、クエリが発行されたコンテキストは明示的ではない。
提案手法は,不特定クエリを取り巻くコンテキストを合成的に構築し,評価中に提供するプロトコルである。
その結果,1) モデルペア間の勝利率の反転,2) モデルペア間の勝利率の低下,2) パターンなどの表面レベル基準に基づく判断の少ない評価,3) 様々な文脈におけるモデル行動に関する新たな洞察の提供,といった結果が得られた。
論文 参考訳(メタデータ) (2024-11-11T18:58:38Z) - Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。
本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。
我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文 参考訳(メタデータ) (2024-09-24T14:52:14Z) - "My Answer is C": First-Token Probabilities Do Not Match Text Answers in Instruction-Tuned Language Models [40.867655189493924]
言語生成のオープンな性質は、大規模言語モデル(LLM)の評価を困難にしている。
1つの一般的な評価手法は、応答空間を制限するためにMulti-choice Question (MCQ) を用いる。
そこで本研究では,テキストの出力を数次元で評価する。
論文 参考訳(メタデータ) (2024-02-22T12:47:33Z) - RefuteBench: Evaluating Refuting Instruction-Following for Large Language Models [17.782410287625645]
本稿では,質問応答,機械翻訳,電子メール作成などのタスクをカバーするベンチマークRefuteBenchを提案する。
評価の目的は、モデルが反響命令の形で肯定的にフィードバックを受けられるか、会話を通してユーザー要求に一貫して従えられるかを評価することである。
論文 参考訳(メタデータ) (2024-02-21T01:39:56Z) - Uncertainty-aware Language Modeling for Selective Question Answering [107.47864420630923]
本稿では,不確実性を考慮したLLMを生成するLLM変換手法を提案する。
我々のアプローチはモデルとデータに依存しず、計算効率が高く、外部モデルやシステムに依存しない。
論文 参考訳(メタデータ) (2023-11-26T22:47:54Z) - Realistic Conversational Question Answering with Answer Selection based
on Calibrated Confidence and Uncertainty Measurement [54.55643652781891]
対話型質問回答モデル(ConvQA)は,会話中に複数回発生した質問文と過去の質問文のペアを用いて質問に回答することを目的としている。
本稿では,会話履歴における不正確な回答を,ConvQAモデルから推定された信頼度と不確実性に基づいてフィルタリングすることを提案する。
我々は2つの標準ConvQAデータセット上で、回答選択に基づくリアルな会話質問回答モデルの有効性を検証する。
論文 参考訳(メタデータ) (2023-02-10T09:42:07Z) - Generative Context Pair Selection for Multi-hop Question Answering [60.74354009152721]
マルチホップ質問応答のための生成コンテキスト選択モデルを提案する。
提案した生成経路選択モデルは,対向保留集合上でのより良い性能(ベースラインより4.9%高い)を有する。
論文 参考訳(メタデータ) (2021-04-18T07:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。