論文の概要: WakenLLM: Evaluating Reasoning Potential and Stability in LLMs via Fine-Grained Benchmarking
- arxiv url: http://arxiv.org/abs/2507.16199v3
- Date: Tue, 29 Jul 2025 14:18:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 12:52:36.808745
- Title: WakenLLM: Evaluating Reasoning Potential and Stability in LLMs via Fine-Grained Benchmarking
- Title(参考訳): WakenLLM:詳細なベンチマークによるLCMの推論可能性と安定性の評価
- Authors: Zipeng Ling, Yuehao Tang, Shuliang Liu, Junqi Yang, Shenghong Fu, Chen Huang, Kejia Huang, Yao Wan, Zhichao Hou, Xuming Hu,
- Abstract要約: 大規模言語モデル(LLM)は、推論タスクにおいて未知のラベルを頻繁に出力する。
我々は、モデル非能力に起因する未知の出力の一部を定量化するフレームワーク、WakenLLMを紹介した。
- 参考スコア(独自算出の注目度): 14.76224690767612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) frequently output the label Unknown in reasoning tasks, where two scenarios may appear: (i) an input sample is genuinely unverifiable, but the model cannot understand why; and (ii) a verifiable problem that the model fails to solve, thus outputs Unknown. We refer to these cases collectively as the Vague Perception phenomenon. Current evaluations focus on whether such answers are honest, rather than analyzing the limits of LLM reasoning. To address this, we introduce WakenLLM, a framework that quantifies the portion of Unknown output attributable to model incapacity and evaluates whether stimulation can convert them into either correct answers (verifiable) or justified (unverifiable) responses with valid reasoning. Our method offers a clearer picture of the limits of LLM reasoning and the potential for corrections across various datasets. Comprehensive experiments on six LLMs suggest that, without any training or parameter revision, LLMs can achieve up to a 68.53% accuracy improvement on Vague Perception samples through guided understanding. Our work reveals that current baseline methods only activate a small portion of LLMs' reasoning potential, indicating considerable unexplored capacity. This extends the theoretical upper bounds of reasoning accuracy in LLMs. Consequently, this study deepens our understanding of the latent reasoning capacity of LLMs and offers a new perspective on addressing the Vague Perception phenomenon.
- Abstract(参考訳): 大規模言語モデル(LLM)は2つのシナリオが現れる可能性のある推論タスクでは知られていないラベルを頻繁に出力する。
i) 入力サンプルは、真に検証できないが、そのモデルは理由を理解できない。
(ii)モデルが解けない検証可能な問題であり、従って未知を出力する。
これらのケースをまとめて、Vag Perception 現象と呼ぶ。
現在の評価では、LSM推論の限界を分析するのではなく、そのような答えが正直かどうかに焦点が当てられている。
そこで本研究では,未知の出力の一部をモデル非能力に起因して定量化するフレームワークであるWakenLLMを紹介し,刺激が正解(検証可能)あるいは正解(検証不可能)のいずれかに,妥当な推論で変換できるかどうかを評価する。
提案手法は, LLM推論の限界と, 様々なデータセットにまたがる補正の可能性について, より明確な画像を提供する。
6つのLLMの総合的な実験は、トレーニングやパラメータの修正がなければ、Vag Perceptionサンプルの68.53%の精度向上が導かれることを示唆している。
我々の研究によると、現在のベースライン法はLLMの推論能力のごく一部しか活性化せず、未探索の能力がかなり高いことを示している。
これにより、LLMにおける理論上界の推論精度が拡張される。
そこで本研究では,LLMの潜在的推論能力の理解を深め,Vag知覚現象に対処する新たな視点を提供する。
関連論文リスト
- Self-reflective Uncertainties: Do LLMs Know Their Internal Answer Distribution? [3.9003806149601234]
SelfReflectは、文字列がLLMの内部回答分布をいかに忠実に要約するかを評価するメトリクスである。
我々は、SelfReflectが、候補の要約文字列の微妙な違いを識別でき、人間の判断と一致していることを示す。
論文 参考訳(メタデータ) (2025-05-26T17:59:53Z) - Lachesis: Predicting LLM Inference Accuracy using Structural Properties of Reasoning Paths [12.377041655669728]
自己整合性に基づくLLM推論の予測モデルであるLachesisを紹介する。
我々は,最近提案されたLLMに基づく障害局所化手法であるAutoFLを用いて実験的に評価した。
結果は、Lachesisが解の正しさを最大0.8136の精度で予測できることを示唆している。
論文 参考訳(メタデータ) (2024-12-11T10:56:47Z) - LLM Uncertainty Quantification through Directional Entailment Graph and Claim Level Response Augmentation [5.255129053741665]
大規模言語モデル(LLM)は、基本質問応答(QA)に起因して、様々な領域にわたる高度なタスクにおいて優れた機能を示した。
そこで,本稿では,包含確率から方向グラフを構築することにより,方向不安定性を捉える不確実性を評価する新しい手法を提案する。
また、提案したレイヤに既存の作業のセマンティクスの不確実性を統合する方法も提供します。
論文 参考訳(メタデータ) (2024-07-01T06:11:30Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。
両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。
提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文 参考訳(メタデータ) (2024-02-15T18:46:24Z) - The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文 参考訳(メタデータ) (2023-11-14T07:26:32Z) - SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step
Reasoning [55.76083560152823]
SelfCheckは、ステップバイステップの推論でエラーを認識する汎用的なゼロショット検証スキーマである。
我々は,3つのデータセット(GSM8K,MathQA,MATH)上でSelfCheckをテストし,エラーの認識に成功し,最終的な回答精度が向上することを確認した。
論文 参考訳(メタデータ) (2023-08-01T10:31:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。