論文の概要: Assessing LLM Reasoning Steps via Principal Knowledge Grounding
- arxiv url: http://arxiv.org/abs/2511.00879v1
- Date: Sun, 02 Nov 2025 10:25:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.977075
- Title: Assessing LLM Reasoning Steps via Principal Knowledge Grounding
- Title(参考訳): 主知識接地によるLLM推論ステップの評価
- Authors: Hyeon Hwang, Yewon Cho, Chanwoong Yoon, Yein Park, Minju Song, Kyungjae Lee, Gangwoo Kim, Jaewoo Kang,
- Abstract要約: ステップバイステップ推論は、複雑なタスクに取り組むための大規模言語モデル(LLM)の標準的アプローチとなっている。
中間的推論に基づく知識を体系的に評価する新しい評価スイートを提案する。
- 参考スコア(独自算出の注目度): 22.194851964203128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Step-by-step reasoning has become a standard approach for large language models (LLMs) to tackle complex tasks. While this paradigm has proven effective, it raises a fundamental question: How can we verify that an LLM's reasoning is accurately grounded in knowledge? To address this question, we introduce a novel evaluation suite that systematically assesses the knowledge grounding of intermediate reasoning. Our framework comprises three key components. (1) Principal Knowledge Collection, a large-scale repository of atomic knowledge essential for reasoning. Based on the collection, we propose (2) knowledge-grounded evaluation metrics designed to measure how well models recall and apply prerequisite knowledge in reasoning. These metrics are computed by our (3) evaluator LLM, a lightweight model optimized for cost-effective and reliable metric computation. Our evaluation suite demonstrates remarkable effectiveness in identifying missing or misapplied knowledge elements, providing crucial insights for uncovering fundamental reasoning deficiencies in LLMs. Beyond evaluation, we demonstrate how these metrics can be integrated into preference optimization, showcasing further applications of knowledge-grounded evaluation.
- Abstract(参考訳): ステップバイステップ推論は、複雑なタスクに取り組むための大規模言語モデル(LLM)の標準的アプローチとなっている。
LLMの推論が正確に知識に根ざされていることをどうやって検証できるのか?
そこで本研究では,中間的推論に基づく知識を体系的に評価する新しい評価スイートを提案する。
私たちのフレームワークは3つのキーコンポーネントで構成されています。
1)主知識収集(プリンシパル・ナレッジ・コレクション)は、推論に不可欠な原子知識の大規模リポジトリである。
本研究は, モデルがいかにうまくリコールし, 推論に必要となる知識を適用したかを評価するために, (2) 知識基盤評価指標を提案する。
これらのメトリクスは,コスト効率と信頼性に最適化された軽量モデルである (3) 評価器 LLM によって計算される。
評価スイートは,LLMの基本的な推論欠陥を明らかにする上で重要な知見を提供するとともに,知識要素の欠落や誤適用を識別する上で,顕著な効果を示す。
評価以外にも、これらの指標をどのように好みの最適化に組み込むかを示し、知識ベース評価のさらなる応用を示す。
関連論文リスト
- OpenUnlearning: Accelerating LLM Unlearning via Unified Benchmarking of Methods and Metrics [101.78963920333342]
我々は,大規模言語モデル(LLM)のアンラーニング手法とメトリクスをベンチマークするための標準フレームワークであるOpenUnlearningを紹介する。
OpenUnlearningは、9つのアンラーニングアルゴリズムと16のさまざまな評価を3つの主要なベンチマークで統合する。
また、多様なアンラーニング手法をベンチマークし、広範囲な評価スイートとの比較分析を行う。
論文 参考訳(メタデータ) (2025-06-14T20:16:37Z) - Do LLMs Really Forget? Evaluating Unlearning with Knowledge Correlation and Confidence Awareness [46.653774740885275]
大規模言語モデル(LLM)における意図しない記憶の軽減を目的とした機械学習手法
実世界の知識の暗黙構造をより正確に捉えた知識未学習評価フレームワークを提案する。
私たちのフレームワークは、未学習のパフォーマンスをより現実的で厳格に評価します。
論文 参考訳(メタデータ) (2025-06-06T04:35:19Z) - How Reliable are LLMs as Knowledge Bases? Re-thinking Facutality and Consistency [60.25969380388974]
大規模言語モデル (LLM) は知識ベース (KB) として研究されている。
現在の評価手法は、信頼性の高い性能の他の決定的な基準を見越して、知識の保持に過度に焦点を絞っている。
我々は,事実と一貫性を定量化するための新しい基準と指標を提案し,最終的な信頼性スコアを導いた。
論文 参考訳(メタデータ) (2024-07-18T15:20:18Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - KoLA: Carefully Benchmarking World Knowledge of Large Language Models [87.96683299084788]
我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。
人間の認知を模倣して、知識関連能力の4段階の分類を形成し、19ドルのタスクをカバーします。
私たちは、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集された新興コーパスを使用して、目に見えないデータや進化する知識を扱う能力を評価します。
論文 参考訳(メタデータ) (2023-06-15T17:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。