論文の概要: WAKENLLM: Evaluating Reasoning Potential and Stability in LLMs via Fine-Grained Benchmarking
- arxiv url: http://arxiv.org/abs/2507.16199v2
- Date: Wed, 23 Jul 2025 12:41:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 12:00:05.678408
- Title: WAKENLLM: Evaluating Reasoning Potential and Stability in LLMs via Fine-Grained Benchmarking
- Title(参考訳): WAKENLLM:微粒ベンチマークによるLDMの推論可能性と安定性の評価
- Authors: Zipeng Ling, Yuehao Tang, Shuliang Liu, Junqi Yang, Shenghong Fu, Yao Wan, Kejia Huang, Chen Huang, Zhichao Hou, Xuming Hu,
- Abstract要約: 大きな言語モデル(LLM)は、しばしばラベルを出力しますが、現在の評価は、なぜそのような答えが起こっているのかというよりも、正直かどうかにのみ焦点を当てています。
これは、2つの異なるケースを曖昧にする: (i) 真に不確定な入力と (ii) モデルが解けない解決可能な問題である。
本研究では,未知応答の比率をモデル能力に起因するフレームワークを導入し,誘導刺激がそれらを正しい未知あるいは正しい未知に変換できるかどうかを妥当な推論で検証する。
- 参考スコア(独自算出の注目度): 14.76224690767612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) frequently output the label Unknown, yet current evaluations focus almost exclusively on whether such answers are honest rather than why they arise. This blurs two distinct cases: (i) an input that is genuinely indeterminate and (ii) a solvable problem that the model fails to resolve. We call this phenomenon Vague Perception. And thus we introduce a framework that quantifies the proportion of Unknown responses attributable to model incapacity and tests whether guided stimulation can convert them into either correct Known or correct Unknown with valid reasoning. By separating these sources of uncertainty, our method provides a clearer picture of LLM reasoning limits and their potential for improvement. As we get a theoretical accuracy of reasoning task on different LLMs, we apply different methods to test whether the model can reach the accuracy given a baseline framework. Our work is meaningful in exploring the potential reasoning ability of LLMs and providing a new perspective on solving the Vague Perception phenomenon.
- Abstract(参考訳): 大きな言語モデル(LLM)は、しばしばラベルを出力しますが、現在の評価は、なぜそのような答えが起こっているのかというよりも、正直かどうかにのみ焦点を当てています。
これは2つの異なるケースを曖昧にします。
一 真に不確定な入力
(ii)モデルが解けない可解な問題。
私たちはこの現象をVag Perceptionと呼んでいる。
そこで本研究では,未知の応答の割合をモデル能力に寄与するフレームワークを導入し,誘導刺激がそれらを正しい未知か正しい未知かのどちらかに変換することができるかどうかを検証した。
これらの不確実性源を分離することにより, LLM推論限界の明確化と改善の可能性を提供する。
異なるLLM上での推論タスクの理論的精度を得るにあたり、モデルがベースラインフレームワークに与えられた精度に到達できるかどうかを検証するために異なる手法を適用する。
我々の研究は、LLMの潜在的な推論能力を探究し、Vag Perception現象の解決に新たな視点を提供する上で有意義である。
関連論文リスト
- Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。
データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。
最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文 参考訳(メタデータ) (2025-06-16T10:32:10Z) - Self-reflective Uncertainties: Do LLMs Know Their Internal Answer Distribution? [3.9003806149601234]
SelfReflectは、文字列がLLMの内部回答分布をいかに忠実に要約するかを評価するメトリクスである。
我々は、SelfReflectが、候補の要約文字列の微妙な違いを識別でき、人間の判断と一致していることを示す。
論文 参考訳(メタデータ) (2025-05-26T17:59:53Z) - A Modular Dataset to Demonstrate LLM Abstraction Capability [3.0899016152680754]
大きな言語モデル(LLM)は印象的な能力を示すが、幻覚や論理の欠陥による推論エラーに苦慮している。
ArrangementPuzzleは、構造化されたソリューションと段階的正当性の自動検証を備えた、新しいパズルデータセットである。
このデータセット上で, LLMアクティベーションに関する分類器モデルを訓練した結果, 推論精度の予測において80%以上の精度が得られた。
論文 参考訳(メタデータ) (2025-03-22T04:25:30Z) - Patterns Over Principles: The Fragility of Inductive Reasoning in LLMs under Noisy Observations [43.491353243991284]
本稿では,雑音の多い例で融合したデータからルールを推論する際の,大規模言語モデルの能力を評価するタスクであるRobust Rule Injectionを紹介する。
1)SRRはノイズ下での性能劣化を最小限に抑えた他の手法よりも優れており、(2)若干の精度の変化にもかかわらず、LLMはノイズ下で不安定を示す。
論文 参考訳(メタデータ) (2025-02-22T10:03:19Z) - "I know myself better, but not really greatly": How Well Can LLMs Detect and Explain LLM-Generated Texts? [10.454446545249096]
本稿では,2進(人間対LLM生成)と3進分類(未決定クラスを含む)の2つの設定において,現在のLLMの検出と説明能力について検討する。
異なる大きさの6つのオープンソースLCMを評価し、自己検出(LLM)が相互検出(他のLCMからの出力の同定)を一貫して上回っていることを発見した。
本研究は, 自己検出・自己説明における現在のLCMの限界を浮き彫りにして, 過度に適合し, 一般化性を高めるためのさらなる研究の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-02-18T11:00:28Z) - Critical-Questions-of-Thought: Steering LLM reasoning with Argumentative Querying [0.3659498819753633]
State-of-the-art Large Language Model (LLM) は論理的および数学的推論を行う際にも苦戦している。
本稿では、議論論に関する文献からの批判的質問の概念を利用し、特にトゥールミンの議論モデルに焦点を当てる。
これらの重要な質問を取り入れることで,LLMの推論能力が向上することを示す。
論文 参考訳(メタデータ) (2024-12-19T18:51:30Z) - Lachesis: Predicting LLM Inference Accuracy using Structural Properties of Reasoning Paths [12.377041655669728]
自己整合性に基づくLLM推論の予測モデルであるLachesisを紹介する。
我々は,最近提案されたLLMに基づく障害局所化手法であるAutoFLを用いて実験的に評価した。
結果は、Lachesisが解の正しさを最大0.8136の精度で予測できることを示唆している。
論文 参考訳(メタデータ) (2024-12-11T10:56:47Z) - LLM Uncertainty Quantification through Directional Entailment Graph and Claim Level Response Augmentation [5.255129053741665]
大規模言語モデル(LLM)は、基本質問応答(QA)に起因して、様々な領域にわたる高度なタスクにおいて優れた機能を示した。
そこで,本稿では,包含確率から方向グラフを構築することにより,方向不安定性を捉える不確実性を評価する新しい手法を提案する。
また、提案したレイヤに既存の作業のセマンティクスの不確実性を統合する方法も提供します。
論文 参考訳(メタデータ) (2024-07-01T06:11:30Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs [52.42505579545893]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。
本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-17T05:22:56Z) - Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。
両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。
提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文 参考訳(メタデータ) (2024-02-15T18:46:24Z) - Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。
我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。
以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文 参考訳(メタデータ) (2024-01-23T14:29:17Z) - The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文 参考訳(メタデータ) (2023-11-14T07:26:32Z) - SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step
Reasoning [55.76083560152823]
SelfCheckは、ステップバイステップの推論でエラーを認識する汎用的なゼロショット検証スキーマである。
我々は,3つのデータセット(GSM8K,MathQA,MATH)上でSelfCheckをテストし,エラーの認識に成功し,最終的な回答精度が向上することを確認した。
論文 参考訳(メタデータ) (2023-08-01T10:31:36Z) - Rethinking with Retrieval: Faithful Large Language Model Inference [91.66406351103484]
我々は検索(RR)で再考する新しいポストプロセッシング手法を提案する。
RRは、チェーン・オブ・シークレット・プロンプトから得られた推論ステップに基づいて、関連する外部知識を検索する。
複雑な3つの推論課題に対する GPT-3 を用いた広範囲な実験により RR の有効性を評価する。
論文 参考訳(メタデータ) (2022-12-31T22:35:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。